专利文献中包含丰富的知识、格式,以及用于都遵循专利标准,并且覆盖面较为广泛,可以很好地充当科技进步与创新的载体。而资源聚合就是将文献资源进行再组织,充分发现文献资源内容的语义关系,可以更好地满足用户的检索要求以及知识服务要求。
5.1.1 高校图书馆专利挖掘优劣势分析
目前我国图书馆专利挖掘服务的相关研究较少,缺乏深层次的专利挖掘服务,更缺少从语义层面进行专利信息的深度理解和分析的技术、方法与工具。尤其是在“大众创业,万众创新”的时代背景下,图书馆应拓宽服务范围,不仅作为专利信息资源中心,更应向创业孵化中心进行转型。在服务对象上,应加强面向中小企业、当地政府与科研机构开展服务,通过专利挖掘激活企业技术创新相关要素、促进高校与企业间科技成果对接、支撑产业发展战略决策,形成协同创新格局。双创环境下,专利文献的情报与知识功能日益凸显,探究图书馆专利挖掘服务的智能化技术与创新服务模式具有重要的研究价值,同时对于培育和催生经济社会发展新动能具有重要的实践意义。因此,本研究将围绕服务双创这一实践领域,运用现有理论与方法,深入探究图书馆专利挖掘服务的相关内容,为图书馆未来的专利挖掘服务提供方向指引。
高校图书馆作为高校文献情报、数据资源等专业性的保障和支持机构,加之专业的服务人员使之在双创服务过程中具有专业优势,但是由于环境、资金等原因也存在一定的服务弊端,需要不断地改进和适应当前发展的趋势。本研究通过文献调研和实地走访总结了如下的有关高校图书馆专利挖掘服务双创优势和劣势,协助高校图书馆认清自身的优缺点,更好地提供专利挖掘服务,促进高校创新创业活动顺利进行。
创新创业环境下高校图书馆提供专利挖掘服务具有以下3 个方面的优势:首先,高校图书馆作为高校文献情报、数据资源中心,拥有大量的专利数据库、收费数据库和专业性网站、文献资料和书籍等,是高校内拥有专利数据最全的机构,能够为专利挖掘提供数据保障,保障大数据环境下专利挖掘数据的充足性和可靠性。其次,高校图书馆拥有大量的专利分析与服务方面的专家,他们拥有专业的图书情报专业知识,具备较高的信息和技术素养,对各类文献资源、网络信息的收集、加工和处理的水平要高于一般的创新创业人员。他们能够提供专利检索、查新、分析及撰写专利分析报告等服务,熟悉专利申请、专利保护和管理方面的知识,能够提供高质量的专业服务。同时,他们也能够针对创新创业团体及个人提供专业化的个性化服务。最后,高校图书馆拥有专业的设备和相关业务的开展。高校图书馆已拥有如科技查新、参考咨询、科研定题服务、信息素养培训等服务体系,拥有良好的用户群体,了解校内有关科研、创新创业的相关事宜,使得开展专利挖掘服务得心应手。而且,每年学校为图书馆投入大量的资金进行设备采购,拥有良好的专利挖掘服务的设备基础。
当然,高校图书馆专利挖掘服务双创也存在一定的劣势,而劣势也恰恰是高校图书馆专利挖掘服务双创的问题所在,主要表现在以下方面:①高校创新创业群体专利意识薄弱,缺乏有效专利成果转化。当前环境下高校虽然重视科研和专利申请,但是仅仅注重专利申请数量,而忽略了产学研模式,使得专利技术转化和应用价值没有充分发挥和体现,使得高校专利成果无法进行市场转化,形成经济效益。而已有的高校图书馆专利服务并没有提供相应的专利转化和市场化的服务,缺乏相应的服务经验和能力。②专利挖掘服务缺失。传统的高校图书馆专利服务模式仍然与其他服务相同,其提供专业的专利服务意识缺失,仅仅从专利查新、专利检索、专利申请等简单层面进行专利服务,缺乏对于专利挖掘与分析方面的服务。其主动服务意识也较为薄弱,不能主动寻找专利服务需求,其基本专利服务模式也无法满足创新创业团队需求,得不到他们的认可。③高校专利挖掘服务能力和人才缺失。创新创业环境下高校图书馆提供专利挖掘服务需要服务人员不仅具有高信息素养和信息能力,而且还需要服务人员具备专利挖掘、分析和预警分析能力,能够熟练掌握和使用数据挖掘、统计分析等计算机操作,匹配用户专利服务需求。但是,当前高校图书馆提供专利服务不够全面、专业和系统深入,需要服务人员提高自身能力和水平。另外,高校图书馆专利服务人员缺乏对于成果转化、应用价值评估和效益预测等方面知识,需要不断加强对于高校专利服务人员培训力度,提高专利转化和市场应用效益。
5.1.2 基于领域本体进行专利挖掘的优势
本体,作为领域知识的系统描述的载体,其结构中所蕴含的多种关系能模拟人类的认知情景,可以有效地解决文献资源内容的语义关系面临的问题。本体是对世界进行的抽象,其中包含了概念和概念关系。用概念描述显示世界中的事物或事件,用概念关系描述这些事物或事件的关系和过程。利用类的概念表示本体框架属性。本体网络中包含了大量的语义。关系包含整体-部分的关系或者继承关系。利用本体约束,对自然语言进行消歧和推理。其中,消歧是指利用本体中的概念,对多义词或同义词进行处理;推理则是从一个概念得到另一个概念,其中的规则包括相等、继承等。
本体可以将情感领域的概念和术语规范化,刻画概念之间内在的联系。利用本体所具有的语义特性,将概念与语义特征衔接起来,同时利用本体的推理能力,扩大概念范围,使基于本体的专利挖掘结果能更加符合用户的需求。本体主要是用在自然语言处理中。在这个领域,作用包括两个方面,首先是领域本体作为领域知识的外在表现,可以为知识发掘提供技术支撑;另外,领域本体中包含的概念可以用来对自然语言中的同义词、多义词进行处理。通过构建概念词典,可以实现自然语言的消歧和推理。
领域本体在构建时需要获取概念作为本体结构的一部分。概念的提取可以使用自然语言处理的方法。自然语言能够从非结构化的文本中提取概念和进行概念检索,因此经常利于该方法抽取概念。领域本体在构建时需要寻找到概念及概念之间的关系,这往往成为本体构建的难点之一。为了更好地抽取概念,可以采用字符串匹配的方式进行概念抽取,以此将符合的字符串作为概念节点构建领域本体。利用自然语言处理的方法在抽取概念上具有较高的准确度,并且可以有效解决概念语义歧义的问题,但是往往不具有通用性。这是因为在利用该方法时需要针对不同的领域构建不同的抽取规则,并且规则之间也有可能冲突,需要有效解决该冲突,这就为抽取概念增加了难度。另外还可以采用基于统计学的方法抽取概念,这种方法抽取的依据是词语出现频率。可以设置阈值用来对抽取的词语的出现频率进行限制,在阈值以上的词语往往是具有一定意义的概念。但是抽取的词语也并不完全都是该领域的概念,这时就需要结合人工判断的方法对概念进行筛选。还有通过抽取语法模式的方法抽取概念的,这是以语言模式出现的频率作为规则的一种抽取方法,这种规则在设定好之后,需要判断文本的词语是否符合该规则。这种方法可以对上下位关系进行有效抽取。层次聚类的方法可以有效对概念进行分类,通过聚类可以获取概念的结构特征。还有一些数据挖掘方法也被应用到了关系和概念的抽取中。目前有许多自动构建的本体软件,如Text 2Onto、OntoLearn、DOGGLE等。这些自动构建的本体软件虽然效率较高,但是构建的本体仍需要人工进行概念的判断,在某些情况下应用得并不广泛。因此,利用维基百科构建本体。这是由于维基百科包含了各个领域的专业词汇,又具有比较完整的结构信息,因此非常适合用来作为概念及其关系的来源。本研究利用维基百科的数据及其自带的API工具,获取维基百科中的概念,并且通过相关度方法计算,对概念进行筛选,从而获取概念及概念之间的关系,并且以其为基础,构建本体,并用OWL 语言进行表示。
5.2 双创环境下高校图书馆专利挖掘流程
5.2.1 基于维基百科的领域本体构建
语义网可以对资源进行有效的语义化,而语义化的核心技术就是如何构建本体。因此,构建本体并挖掘本体中丰富的语义关系是本文研究的关键。手工构建本体耗时耗力,可以考虑对已有的本体进行复用。维基百科包含了大量的领域术语,并且拥有较为完善的目录系统、信息表格、条目定义及丰富的超链接,基于此,利用维基百科作为数据源,可以实现对本体的半自动的构建方法。维基百科提供了JWPL工具,可以通过API对维基百科获取概念及概念之间的关系,生成本体概念层次并将其映射到OWL语言,发现本体中的隐含知识,并利用该本体对计算机领域的概念语义化,并将其作为专利文本挖掘的基础。
使用的API工具包为JWPL,是维基百科开发的专门获取维基百科数据的工具包。通过获取的工具可以创建维基百科的类别对象,并且获取某一类别对象之下的子对象。JWPL中需要利用到一些工具包,在程序的头部进行声明。另外需要对维基百科的类别和API进行配置,包括Category、Database Configuration及Page,配置之后即可使用抽取算法进行概念抽取。参考领域度相关公式,以此为基础,剔除与计算机领域本体构建无关的一些概念。可以对获取的领域概念进行整理。对于整理好的概念,可以利用这些概念构建领域本体,并且可以使用程序自动生成这些概念结构。据此可以对获取的概念进行整理并得到用来构建领域本体的相关概念。
5.2.2 文本表示的概念模型
基于概念的文本表示模型利用了自然语言处理的相关理论和技术,包括了概念和概念距离,这些概念理论被广泛应用在文本表示中。
(1)概念是对事物本质特征的概括和抽象,并且概念与词汇语种、多义性和歧义性无关。概念与词语的联系比较紧密:概念是依附于词语存在,而且词语之所以能表示其他事物,就是由于头脑中具备相应的概念。所以概念是词语的内涵,而词语是概念的外在。
通过概念词典可以找到词语和概念之间的映射关系,以此也可以解决语句中存在的多义词与同义词的问题。概念词典中的词语被划分为三个层次,包括词形、词性及概念定义。词语的物理形态的定义是词形;词的语法功能通过词性说明,而概念定义是由一个或多个基本属性组成,另外也包括词语与主干词语之间的语义关系。
(2)概念距离可以比较好地对概念间的语义关系进行表示。概念具备基本属性,概念距离就是将这些属性之间进行加权求和之后的最短路径长度。计算的时候一般是将属性看作是一个具备层次网络结构的分类树,这样就可以将计算属性的距离转化为计算节点之间长度,该长度就是概念属性之间的距离。通过对各个相应的基本属性距离进行加权求和,进而得到两个概念之间的距离。实际计算的时候,会参考一些其他因素计算概念距离,这是由概念层次树的结构决定的。概念层次树的深度、密度会由于概念不同而不同,因此在计算时要考虑概念层次树的结构。一般的统计学计算方法只会统计词频共现或者词语之间的相关性等信息。而采用概念距离进行计算的访客,可以从语义的角度对词语之间的相似度进行更细致的观察,这也使得提取的语义特征可以更好地表示向量空间。该方法的缺点是在构造词典的时候会由于主观性的存在而导致计算相似度时存在一定的偏差,从而影响计算结果。
对于概念相似度,利用sim(W1,W2)进行表示。概念W1、W2 在层次概念树上的距离为dis(W1,W2),那么得到相似度:
其中α是一个调节参数,一般取值范围为[0,1]。在领域本体构成的本体层次网络中,子节点是父节点概念的细化,子节点概念的含义比父节点更加具体。因此,概念所处位置深度越深,周围节点密度越大,表示概念包含的信息量越多。网络中子节点概念和父节点概念共同属性越多,那么二者关系相似度越高,有向边权重赋值越大。
(3)概念的映射。基于概念的文本表示模型是对向量空间模型的一种集中,可以更好地衡量语义知识的不足,也解决了向量空间模型的同义词和多义词的识别问题。构建的步骤如下:①文本预处理。对文本进行预处理,包括文本分词、提取文本特征词及对文本进行向量化表示,通知将词语的位置信息记录下来。②概念-词语转换。每个词语对应一个或者多个概念,在概念词典中查找相应的概念,作为文本的特征进行表示。将文本词语转为文本概念词,可以从语义的角度对文本内容进行抽象,同时也可以将具有同义关系的词语进行总结简化。用概念计算文本内容之间的相似度,可以得到更高的计算精度。③概念处理。如果一个词语对应的概念不只有一个,则需要对该词语进行排歧处理。根据语境选择该词语对应的概念。一般具有以下几种方法进行处理:从词语搭配规则的角度确定该词语对应的概念,从机器处理相关概念的角度理解语境并处理,从相似度的角度计算词语对应的概念。一般距离越近,表示相似度越高,对应的程度也越高。
5.2.3 专利挖掘的流程
预处理操作就是提取文本中的各种特征元素,并将模糊的隐含的结构表示成明确的结构。文本中的潜在字句在不同的情景或许会产生不同的含义。识别不同的文本特征是文本挖掘的重要任务。
常用的文本特征包括字词、词组及短语等特征。获取这些特征可以对专利文本进行精确描述。字词包括单个符号的字母、数字或者汉字等。这些符号构成了词组、短语或者概念。不考虑情境的话,这些字词应用时可能会受到限制,而考虑到情境及上下文特征的字词在挖掘上会更有优势。在专利文本中挑选一定的词语进行组合,可以具备更高级语义的特征。这些特征一般都存在于专利文本的特征空间中。短语是通过从专利文本中抽取字词或者词组而形成的复合词组。这些特征组合到一起会更好地描述文本特征。 信息量的增益公式如下:
信息增益可以用来度量该信息的比特数,进一步可以确定是否包含特征f。为了降低文本资源的维度,需要对原始的特征空间进行映射,将其映射到更低维的空间中。这个降维的过程就是将特征合并的过程,其基本原理是对同义词、多义词进行合并。比较常用的方法包括潜在语义分析与利用词典合并同义项的方法。
潜在语义分析是通过统计学的方式来分析文本资源在语义上的相互关系,以及其内在的语义规律,从而对文本中的知识进行表征和应用。利用潜在语义分析方法可以将向量空间中的多为特征进行投影,新的空间即称为潜在语义空间。这个过程中,保留了在原来向量空间中的语义特征,以此达到降维的目的。一般采用的是奇异值分解的方法。潜在语义分析将向量空间看作一个由“词语-文档”构成的矩阵,对这个矩阵进行正定化,即将“词语-文档”矩阵X分解为正定矩阵,公式为X=TSDT。这里T、D 是两个正交矩阵,而S 为X 分解后的对角矩阵。在这个矩阵中,按照降序方式排列的非0 值称为奇异值。将对角矩阵X 的最大k个奇异值挑选出来,并选取与其相邻的左右正交矩阵。这样,新选取出来的矩阵与K个特征值所对应的特征向量构成的矩阵U 即为潜在语义空间,由此达到降维的效果。
利用同义词词林、知网或者构建的本体同样可以达到降维的效果。通过计算概念之间的相似度进行词语合并,以此突出文本特征。
聚类属于无监督的学习过程,通过聚类挖掘,专利文本资源被划分为不同的类别,方便对专利文献资源进行检索和推荐。聚类的优点就是不需要事先对文本进行训练,划分好训练样本,而是在未分类的情况下将文本划分为有意义的群体。文本聚类是假设在相关的文本相似度较高,不相关的文本相似度较低的基础上的,这样基于内容的文本聚类更加有助于提高效率。文本的聚类过程包括:特征的选择、抽取;选择合适的度量方法;选择聚类算法,最后对聚类结果进行评估。
聚类问题属于一个最优化问题,目的是将所有的文献都划分到合适的类中,将相似的文本进行聚合,而不相似的被分割。一般采用的相似度量公式包括欧几里得距离公式:
闵可夫斯基距离公式:
余弦相似度公式:
聚类算法从分割的类中的任意的文献资源开始,并且执行合并直到满足最终停止的标准。常用的算法包括K 均值算法,EM 混合求解和层次聚类等算法。
5.3 改进的专利挖掘方法及服务系统构建
5.3.1 基于领域本体的专利文本检索方法
高校图书馆应该借助馆内专利数据库、专利查询网站及互联网资源为用户免费提供专利的基本查询,比如专利数量、关键词检索、专利申请人、专利申请年份、专利同族数等。但是面对当前海量的专利数据,传统的专利检索和查询的式已经无法满足用户需求,出现检索准确率和召回率低等问题,缺乏有效的专利知识推理和索引。目前,国内外学者均对语义检索进行研究,语义检索已经成为计算机和情报等学科的研究热点。高校图书馆应该设计基于语义的专利检索和推理方式,综合运用领域本体、语义搜索引擎等技术手段构建语义检索模型,利用语义本体的语义概念和关系进行专利的检索与查新。通过知识之间的关联,充分利用计算机的推理能力,基于专利领域本体的语义检索能对用户的检索请求进行语义扩展,对检索结果进行扩展并实现语义检索能够有效提高检索结果的精度。实现语义及扩展检索的方式是利用本体推理的方法。通过对语义的扩展可以有效发现本体中概念之间的语义关系,并且可以利用领域本体概念之间的相关性及知识性进行分类和检查。只有检查合格的领域本体概念可以通过构建树结构的方式进行组织,使得概念和属性之间的关系增加紧密,从而形成本领域的知识库,进而降低本体构建的成本。Hayes定义了一组标准的推导规则,可以从RDF图中进行D规则的推导。ter Horst对D推导规则集进行了集中,可以成为D*推导规则集,从而弥补了该规则的不完备性。Horrocks等构建了一系列规则,结合了OWL1 DL的特性,成为SWRL语义网规则。Jena作为语义网的框架,与SWRL规则类似,并且支持正向和反向的规则推理,可以基于Jena规则对概念进行扩展推理,以此保证语义检索的随机能力,基于用户需求对查询词汇进行语义扩展。
Jena的推理规则可以分为上下位推理和相似关系推理,利用同义词扩展关系进行查询词汇的推理。RDF作为本体描述语言,可以以三元组的形式对数据进行描述。RDFS包含了语义管理,如类包含、属性包含,并且在属性中有属性的值域和定义域。例如:{v p w|p rdfs:domain u.}=v rdfs:type u.(rdfs2)定义了属性的定义域;{v p w|p rdfs:sub Property Of q.}=v q w.(rdfs7)包含了属性。采用RDFS和OWL相结合的方式,对推理的规则进行定义,从而集成规则中的传递性、继承性和反转性规则,又解决了属性限制的问题。在OWL语言描述的规则中包括同一关系描述,表示为:owl:same As。对于上下位关系描述,可以利用rdfs:sub Class Of规则进行描述。由x→y,y→z,则x→z,可以理解规则中的传递性。由x≌y,y≌z,则x≌z,可以理解规则中的等同关系推理。通过推理机的作用可以得到不同概念的相似性推理。
设定规则后,可以将用户的输入概念作为查询词进行扩展,寻找一组相似的概念,并根据概念进行映射,以此计算专利文本之间的相似度,计算后可以将相似度较高的专利文本推荐给用户,在这个过程中实现了概念的细粒度及扩展查询,满足了用户的需求,并且可以向用户提供专利查询服务。
本书提出的检索流程如下:首先用户输入检索的关键词,通过构造的推理规则及领域本体对该词进行扩展查询,将与查询条件匹配的专利文本进行排序,最后返回给用户该专利文本集合。系统流程如图3-1所示:
(www.xing528.com)
图3-1 基于领域本体的专利检索流程
用户输入检索关键词,经过Jena推理后可以获得关键词集合,在数据库中查找含有关键词及扩展关键词的文本,可以获得符合用户需求的专利文本。
5.3.2 基于领域本体的专利文本分类及发现方法
传统的关联专利知识发现服务是运用共词分析和引文分析等方法开展,仅仅基于专利文本特征的表层,没有深入到内部的语义层面,很难为双创用户提供高质量的服务。当相关领域专利数据积累到很多时,需要提高专利数据挖掘的手段,利用自动化和智能化的计算机手段开展大量的关联挖掘,让专利知识库的自学习能力不断更新,并能从系统自动反映和挖掘潜在和前沿的新知识。如何在大量专利数据库中快速找到专利之间的直接和潜在关联,为专利申请与研发、专利布局、相关专利推荐等提供数据支持,是专利挖掘服务的重要工作内容。
关联专利知识发现服务是为了满足双创用户深层次的专利知识需求,同时可以利用专利服务扩展传统知识服务的范围。双创环境下,用户可以通过先进的技术手段获取相应的专利信息,并且利用挖掘工具和方法得到所需的专利知识。为了更好地利用知识,也可以主动向用户推送关联的知识。推送知识的服务与传统的专利挖掘服务不同,在推送的过程中往往挖掘了专利知识之间深层次的语义关系。本研究认为高校图书馆关联专利知识发现服务就是高校图书馆运用领域本体知识,构建响应的领域本体知识库。在领域本体知识库中对专利进行语义标注,从而为挖掘专利语义知识提供支持,并针对用户需求,主动地挖掘专利知识单元之间关联关系和发现新的专利知识,然后运用推理结果给双创用户提供服务。
谱聚类是一种可以为复杂数据进行分类的方法,重点是对相似矩阵的构建。不同的相似度矩阵决定了最后聚类的效果。传统的谱聚类方法有很多,NJW是典型的谱聚类算法。该算法设定了一个人工参数б,这个参数决定了样本之间的相似程度。通过对该参数的调整,可以重新建立相似度矩阵,这样降低了算法效率。Ng等、Peronadeng、Fish等均采用各自的方法对该算法进行改进。传统的关联专利知识发现服务是运用共词分析和引文分析等方法开展的,仅仅基于专利文本特征的表层,没有深入到内部的语义层面,很难为双创用户提供高质量的服务。鉴于此,本研究拟引入领域本体来语义化专利知识,运用数据挖掘方法开展关联专利挖掘服务。
将专利文本中的概念提取出来,利用概念列表表示专利文本。计算概念之间的相似度之后,将概念相似度求和并归一化作为专利文本之间的相似度。这样就得到了一个非零的相似度矩阵,这个矩阵是个对称矩阵。在进行预处理时,需要将文本以单词为单位进行切分。利用构建的领域本体作为相似度计算的基础,并经文本表示为提取出概念的集合。在得到相似度矩阵的基础上,可以利用谱聚类方法进行分析。通过语义角色标注、领域本体等方法进行专利主题抽取,实现海量专利文献的自动化处理和主题自动化抽取,并快速有效地从大规模专利文献中找出具有特定技术功效的核心专利簇。运用语义技术抽取的专利主题包含语义信息更丰富,准确率更高,更符合用户需求。
改进的基于领域本体的专利文本分类方法流程如图3-2所示:
图3-2 基于领域本体的专利文本分类流程
如图3-2所示,通过构造相似性矩阵,得到特征向量构成的构造矩阵,对该矩阵进行规范化,得到新的矩阵,对新的矩阵进行K-means聚类,即可得到新的文本分类。国家知识产权局网站1包含大量的专利文本,可以一次作为专利文本的数据集。专利文本中往往不含有关键词和摘要,因此,需要将整篇文本进行分词,提取出能够代表专利的关键词。另外,利用已有的分词工具NLPIR大数据搜索与挖掘共享平台对专利文本进行处理。通过该工具将专利文本分析并统计词频,从中选取出现词频较高的关键词,用来描述专利文本。计算关键词的语义相似度并且计算整个文本的相似度,进而得到相似度矩阵。
为了验证该方法的有效性,通过相似度进行聚类划分。选取的评价指标为聚类结果的纯度(Purity)。由于文本较少,因此选取的聚类也不宜太多,通常为3、4和5个。这样可以得到纯度的数值。在计算的过程中用的是随机选取簇中心的方式。在对文本进行聚类的时候,可以发现聚类的设置数量会影响聚类算法的实际运行。如果聚类数值过大,会导致计算过程耗费大量的时间,并且聚类的效果不会太好,这是因为数目设置得过多,实际相似的项目过少,无法得到用户所需的项目。如果聚类的数值设置过小,那么在每个聚类中实际的项目会增加,同样会影响向用户推荐的效果,并且在推荐的时候需要查询大量的相似信息。为了可以更好地为用户进行推荐,假设为用户推荐专利文本,寻找10个与目标用户相似需求的用户,这样在整个集合中进行查询。设置聚类数目为I,表示扫描部分的目标项目就可以在整个空间中寻找到合适的项目。对查询效率进行比较。不同的聚类数目具有不同的查询效率。最优效率是指在查询时,需要扫描整个项目集的数量即可查找最大数量的邻居。一般可以利用F 评价指标对推荐效果进行评价。F指标中包含了查全率和查准率,这样就为专利的聚类和推荐做了准备。
采用本文方法得到的可以为专利文本分类提供支持。通过语义相似度计算可以获得专利文本概念之间的语义关联,这样也可以为专利语义信息的丰富性提供支持,从更深层次对专利文本进行关联。基于领域本体的高校图书馆关联专利知识发现服务出发的角度是用户需求,为了保证用户需求能够有效被满足就需要各种先进的技术手段予以支持。通过挖掘相关领域专利的知识和发现知识之间的关联,才能更好地发挥高校图书馆在专利服务方面的价值和作用。可以优化和改进双创环境下高校图书馆专利挖掘服务的功能和质量,改善双创用户的满意度和体验度。
5.3.3 基于领域本体的技术研发方向预测
专利技术预测是对专利、同族专利、同时期同核心专利、同发明人专利等相关专利的统一研究分析预测专利技术周期、专利技术走向趋势的专利挖掘服务。对于行业内的特殊竞争对手,可以获取其在某段时间内发表的专利,通过相关的方法对专利包含的技术主题进行划分,有效识别该企业的技术研发现状,分析企业的技术研发内容,以此探索企业研发的方向,并为企业制定自己的研发策略或者调整企业的战略做参考。
在对专利进行技术主题分析时,往往采用了专利的IPC代码或者德温特手工分类代码等方式。这是由于专利文献中不含有关键词,需要以分类代码进行替代。这类代码缺乏细致的分类,无法及时更新,在专利分析的时候,无法获得最新的技术及最关键的技术。这样就有必要对专利文本进行挖掘。
LDA模型是一种可以对高维数据降维,以及可以发现潜在主题的模型。这种模型是以贝叶斯概率为基础,可以把文档表示成主题词的概率分布。为了更好地识别专利文本的主题,可以采用LDA 模型与领域本体结合的方式,代替人工标记方法,由此可以得到专利与主题之间的概率关系。这样讲一个专利文本对应不同的主题,这些主题有许多个,并且以概率的方式进行分布。将主题的分布以矩阵的方式进行表示,可以将企业在某段时间发布的专利转换成专利的主题矩阵。本文提出的基于领域本体的研发方向识别流程如图3-3所示:
图3-3 基于领域本体的研发方向识别流程
基于领域本体的研发方向识别方法通过LDA模型提取专利中包含的主题,利用维基百科中包含的概念和语义关系对专利文本中的主题进行相关性识别和标记。在使用主题词表等计算语义相关性时往往需要很大的开销,因此可以借助维基百科计算专题主题与概念之间的相关性,并且可以在专利文本中进行主题的检索。另外可以通过重定向界面寻找到与该主题或者概念语义类似或相同的概念。另外,可以通过维基百科构建的领域本体中的结构关系计算语义概念之间的相关性或者寻找专利主题与概念之间的相关性。
在专业领域,存在着许多的缩写词和同义词,这些词的表达方式很多,这就导致了计算概念相似性时的难度更大。在进行维基百科的映射时,可以采用忽略大小写的方式进行映射。字符是否大写一般情况下不会影响概念的语义。在使用一些专有名词时,往往都有通用缩写,这个时候可以很方便地对这些词进行识别。在进行映射时,存在提取出的主题词无法与构建的领域本体中概念有效对应的情况。为了减少这种情况发生时出现无法对应的概率,本研究提出了概念匹配规则。英文单词中存在的字母个数往往是6个的居多,因此在提取英文单词时可以将英文单词长度设置为6。缩写的单词往往是3 个的个数较多,因此在确定单词的缩写单词个数时可以设置为3。这样就规定好提取概念时的单词个数规则。如果专利文本中提取的主题词长度小于6,在与维基百科中包含的概念进行映射时,需要考虑维基百科中包含的概念的个数及概念的长度。如果个数小于3 并且概念长度小于6,那么专利文本中的单词与维基百科中的概念完全匹配即可,如果没有完全匹配,则判断是否是缩略词,如果是缩略词则进一步判断。如果维基百科中的概念长度小于6,那么可以选取概念的前5个字符进行判断,如果前5个字符能够匹配上,即视为专利文本的单词可以与维基百科中的概念匹配。当维基百科中包含的概念单词个数大于3个但是单词的长度小于6时,在判断概念是否匹配时,需要保证单词能够完全相同。否则的话可以去掉概念的首字母,判断之后的单词是否能够完全匹配。如果专利文本中的单词长度大于6,并且维基百科中包含的概念个数小于3单词长度小于6,那么可以选取前5个字符进行匹配,如果能够匹配即认为两个概念是同一概念。这样就得到了专利文本中的主题,进而计算专利中的主题所对应的概率值,得到专利主题矩阵。对于专利主题矩阵中的每一列求和,得到总值后进行归一化。采用如下公式进行处理:
ARi=( TAi-TAmin )/( TAmax-TAmin )
对申请专利主题矩阵中每个技术主题对应所有申请专利的概率值进行求和,即主题矩阵中每列求和,得到主题矩阵中每个技术主题总值,对每个主题的总值进行归一化处理,得到每个主题对应的申请相关度。在这个公式中是第i个专利主题在该专利主题矩阵中的总值,和分别是专利主题在专利主题矩阵中计算得到的总值的最小值和最大值。通过这样的处理之后,可以得到专利主题的分布区间为(0,1)。这个公式表明如果得到的数值较大,说明在该时间内,企业申请该主题的专利较多,并且申请专利活动较为活跃。
通过抽取主题的相关度可以发现,柱形高度越高,代表该主题是领域的研究热点,相反该主题可能是一个新兴的研究主题或者过时的研究主题。通过主题可以获得大量的实时数据。通过以上的分析,就可以得到研究热点及帮助预测企业未来的研究方向。
5.3.4 高校图书馆专利服务系统原型设计
(1)基于领域本体的高校图书馆专利挖掘系统原型设计原则。①科学性。在专利挖掘系统设计的时候,需要保证专利挖掘和检索系统能够正确而全面地为用户提供服务,只有这样才能够帮助用户完成技术创新过程。②实用性。因为技术创新具有研发周期长、市场变幻莫测不稳定的特点,基于语义的专利检索系统需要服务技术创新的全部过程,并且可以随时根据市场变化进行调整,这就要求该系统必须实用,可以随时调整创新战略,修正创新方向。③法律性。基于语义的专利检索系统不同于其他检索系统,专利具有法律保护的特点,所以在技术创新过程中,吸收竞争对手专利技术,在此基础上研发创新一定要考虑到专利的法律保护,比如专利权、专利时限、专利秘密的保护,更要防止进入对方的专利陷阱。所以基于语义的专利检索系统要考虑到专利法律保护,技术创新型企业一定要有自己的专利律师团队,把握改进创新的尺度。④共享共赢性。基于语义的专利检索系统目的是技术更新换代,这种检索系统促进了技术创新行业的发展与变革。共享现有专利技术,在此基础上改革创新,再共享新技术,研发更新的技术,如此良性循环,是基于语义的专利检索系统特点。专利技术资源共享,企业间利益最大化,提升了行业技术水平,大大提高了客户的满意度,实现了企业、行业、客户和社会的多方共赢。
(2)基于领域本体的高校图书馆专利挖掘系统原型设计框架。专利挖掘始于对创新点的发掘、收集与加工,高校图书馆的专利挖掘服务最基本的就是通过对专利资料中海量零碎的信息进行整理与分析,借助统计学方法和工具预测某领域技术或产品的发展走向,从而为创新创业主体的专利布局提供支撑。为了支持高校图书馆专利挖掘服务,本研究设计了基于语义的高校图书馆专利服务系统。该系统目的是基于语义为用户提供专利信息检索、相关的专利文献资源推荐,从而为用户提供更好的专利服务。
图3-4 图书馆专利服务系统架构
本文构建的专利挖掘服务系统总体模型框架如图3-4所示。高校图书馆专利挖掘系统使用SSH(Spring、Struts2、Hibernate)架构。在该系统中集成了检索方法、聚类方法、知识方法及推荐方法。系统中包含了四个层次架构。该推荐系统架构总体上分为四层:对专利信息的检索、专利数据库的构建、专利信息的分析、专利文献资源的推荐。其中专利信息的检索包括对用户输入的关键词进行检索,以及通过语义推理对用户输入的关键词进行扩展,即语义检索。本研究的基础是对专利文献的概念通过领域本体表示出来,并且计算概念之间的相似度。另外,在对检索结果进行显示的同时,也可以针对用户感兴趣的信息进行推荐。这种推荐方式是基于内容的推荐,首先将文本文献进行聚类,然后根据聚类的结果将相似的文献推荐给用户。专利信息的提取包括概念的提取与关系的抽取。专利主题自动提取对于专利文献挖掘具有重要的意义。
我们设计的系统处理流程如图3-5所示:
图3-5 专利服务系统处理流程
图3-6 专利检索系统设计架构
系统的设计架构如图3-6所示,包括对专利信息的提取、对专利数据库进行语义分析及建立起相应的专利检索。专利信息的提取包括概念的提取与关系的抽取。机器学习方法是目前抽取方法的主流,其中包括基于规则覆盖的实体及关系抽取。这是一种监督学习的算法,需要输入手工标注的数据。基于特征的实体及关系抽取是利用SVM等机器学习算法抽取。这里不需要事先写好规则,而是采用较多的数据作为训练样本,通过构造分类器将数据以多维特征向量进行表示。基于核函数的实体关系抽取需要对句子进行句法分析,抽取短语及对应的实体信息,对句法分析中的节点定义匹配函数和相似函数。将抽取好的信息填入到关系数据库中,可以供用户进行查询使用。在分析后,以可视化的方式向用户呈现最终的检索结果。
(3)搜索引擎设计方案。Lucene是Apache软件基金会的一个子项目,用于提供信息检索的工具包,可以为应用程序提供索引和搜索功能。这是目前比较流行的开源检索工具包,可以提供完整的搜索引擎。为开发者提供了API供开发使用。在该环境下,一般使用JAVA 语言进行开发。基于语义的高校图书馆专利服务系统中,利用该搜索引擎为用户搜索提供支持。
(4)语义分析及处理模块。该模块是建立语义相关性的基础步骤,为了有效存在的语义相关问题,构建的步骤如下(流程图如图3-7所示):①文本预处理。对文本进行预处理,包括文本分词、提取文本特征词及对文本进行向量化表示,通知将词语的位置信息记录下来。②概念-词语转换。每个词语对应给一个或者多个概念,在概念词典中查找相应的概念,作为文本的特征进行表示。将文本词语转为文本概念词,可以从语义的角度对文本内容进行抽象,同时也可以将具有同义关系的词语进行总结简化。用概念计算文本内容之间的相似度,可以得到更高的计算精度。③概念处理。如果一个词语对应的概念不只有一个,则需要对该词语进行排歧处理。根据语境选择该词语对应的概念。一般用以下3种方法进行处理:从词语搭配规则的角度确定该词语对应的概念;从机器处理相关概念的角度理解语境并处理;从相似度的角度计算词语对应的概念。一般距离越近,表示相似度越高,对应的程度也越高。计算后构建语义索引,以此作为检索的基础。
图3-7 语义分析流程图
(5)专利文献检索模块。本书设计的专利检索模型的检索功能分为两部分:内容关键词检索和语义关键词检索。通过关键词的检索可以获取所需要的专利文献,对于专利文献的数量又要求不能太多,是适量的。这就要求在检索的返回结果中能够进一步筛选,可以选出该领域的文献,并且该文献可以客观反映该领域的技术现状。
专利检索时需要做好检索前的准备工作。这些工作就包括对专利进行分解,获得能够描述专利的概念,对概念进行索引。对于专利检索过程需要保证检索结果的查全率和查准率都能够符合要求。如果检索结果不符合要求,就要求开发者对检索策略做进一步完善,或者在去噪策略中进行优化。只有用户查询到满足需求的文献,这个检索过程才能够停止。
检索系统及数据库的选取。合理地选择检索系统和专利数据库有利于提高专利文献的查全率和查准率,也有助于提高专利分析和研究的质量。专利检索流程图如图3-8所示。
图3-8 专利检索流程图
(6)专利文献推荐模块。通过提取专利文献中的关键词和摘要中的关键词,可将文献资源以概念的形式进行表示,再通过构建本体可以计算文献资源的相似度。然后构建专利文献相似度矩阵,并利用谱聚类方法对专利文献进行聚类,由此文献资源中相似度较高的文献被聚成一类。只有采用基于内容推荐的方式,对用户查询词进行语义扩展,发现用户的深层次需求,由此才能向用户进行推荐。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。