1.1 专利挖掘及专利文本挖掘概念
“专利”一词起源于拉丁文 “Litterae patentes”,本意为一种由君主或政府颁发,授予个人专有权,开放以供公众查阅的文献,是专利文献的简称。但目前在词典中的基本解释为“一项发明创造的首创者所拥有的受保护的独享权益”,更偏指权利,其内涵不仅代表一种开放的特殊科技文献,还代表享受专门法律保护的权利。申请人享受专利权,即专利权人在法律规定范围内独占、使用、收益、处分其发明创造,并排除他人干涉的权利。
我国的专利分为发明、实用新型和外观设计三类。专利内容主要包括专利号、专利分类号、专利名称、专利申请人、专利说明书、专利摘要、专利详细表述、专利授权公布日等内容,含有著录、技术、法律、经济、战略多类信息。专利分类号、申请号、文献号以及专利申请日、授权公布日等组成专利元数据的各项著录信息,对于专利特征分析有至关重要的作用;专利说明书、专利摘要及附录图表等内容,专利文献所附的检索报告、相关文献,以及与该项专利的技术内容相关信息中,往往包含大量与某项专利相关的技术信息;权利要求书、专利公报和专利登记簿中所包含的法律信息,清楚地表述专利被保护的内容和范围;而专利许可、专利权转让中包含技术贸易过程中的大量内容,是反应国家、行业或企业经济活动的重要信息。面向这类有着独特分类体系、文本结构的特殊的科技文献,专利挖掘已成为获取科技、商业及法律等情报资源的一项重要工作。
专利挖掘,顾名思义,即专门针对专利信息进行数据挖掘从而获得有用的信息。数据挖掘一般通过算法从微观、中观乃至宏观层面,对数据进行统计、分析、综合和推理,以求从大量信息中发现隐含的规律,从而解决实际问题,发现事件之间的关联特征,预测未来活动。专利挖掘主要是面向文本信息挖掘。文本信息挖掘即对文本数据进行处理,从中抽取隐含的、未知的、潜在模式的过程。专利挖掘以专利文本为主要对象获取其内容特征,例如专利的主题、主题类属、核心内容提取等。利用特征抽取、聚类、分类、主题标引等方法实现专利内容的挖掘。主要过程包括专利文本的准备,特征标引,特征约减,模式提取、评价和输出等过程。
专利文本具有其独特性,每一项专利往往会有多项主题代码,分属于不同类别系统,代码的编制为专利分析带来一定的阻碍,即便是经验丰富的专利分析人员,想要准确定位某项专利与其他专利之间的关系并定位其应用领域也有一定难度。而且不同专利数据库的开发者不同,类型多样,模式各异,不同数据库中专利文本的格式、逻辑不同,不存在统一的标准规范。因此,专利分析离不开文本挖掘技术。
1.2 专利挖掘任务
专利挖掘任务是一个大规模的文本分析任务,在国家专利局及相关研究人员对专利研究论文和专利检索需求量大幅增长的背景下,提出专利挖掘任务,主要是为处理多类别属性、不均衡样本分布等专利文本分类问题。专利挖掘任务的主要工作是编码相关科技论文标注上的IPC类别,面对3万多类并且呈现极不均衡分布状态的专利文献,基于有效的专利挖掘任务能够极大提升系统性能。NTCIR-7 评测任务中,首次提出了专利挖掘的评测任务,以专利分类和检索为主要专利挖掘技术,用IPC的分类标记将研究论文和专利相关联。
IPC(International Patent Classication)是国际通用的专利分类系统,全球各国的专利机构都基于其对专利进行分类。IPC采用包括部、类、次类、主组、分组的五级分类法。NTCIR中的专利挖掘任务利用自然语言处理,检索特定领域的论文及专利,分析该领域科学研究的脉络及趋势,以技术发展动态地图呈现。NTCIR对专利挖掘任务不断完善和发展,专利挖掘任务主要包括两大子任务,首先是对专利分类,再以技术动态地图呈现。专利分类部分基于IPC分类系统对学术论文和专利自动分类,实现统一的类别归属、文献检索和内容分析;技术动态地图主要基于专利分类中的要素技术和功效绘制。
专利挖掘任务首先对学术论文和专利数据内容通过文本分类模块实现模块化,基于IPC分类体系自动赋予IPC号,五级IPC号在专利挖掘任务中应具体到“分组”级别。然后根据文献中的属性、属性值抽取出要素技术和功效两模块,形成要素技术和功效对,完成对每篇文献的要素技术和功效标签的自动赋予,以此形成技术动态地图。
1.3 专利文本挖掘相关技术
从以上对于专利挖掘任务的梳理可知,文本分类方法是完成专利挖掘任务的重要方式,在专利挖掘的过程中,需要对巨量类别、巨量标签、巨大规模的文献进行自动文本分类,因此专利挖掘离不开自然语言处理尤其是文本分类技术。除此之外,信息检索技术也是其不可或缺的重要一环,基于倒排索引技术对分类后的文档进行存储、检索处理,是专利挖掘价值呈现的关键所在。
1.3.1 分类技术
分类即将事物按照一定的规则分属到预先给定的类别,Lewis给出了文本分类的定义,认为文本分类即将未曾给定类别的文档分属到预先给定的类别。文本分类的关键技术主要包括文本预处理、文本特征提取、特征权重计算及文本表示技术。
文本预处理是将文本转换为方便计算机识别的数据格式的过程。首先,要过滤非法字符,去除与文本内容无关的信息,提取正文信息,并将其转化为计算机可识别的代码;其次,利用分词法,将完整的句子按照语义分解为字词集合;再次,去除出现次数频繁却无实质内涵的停用词,如“的、了”等中文词及“a、of”等英文词。(www.xing528.com)
文本特征提取是将文本特征转换为数值特征。作为训练集的文本包含大量的词汇,若都作为特征项,会给计算带来巨大的压力,且有些词对分类结果的影响度不高,可通过文本特征提取的方法进行降维,以下为几种常见的文本特征值提取技术:
(1)文档频度(Document Frequency,DF)。是按照文本频度高低排序,通过预先设定的阈值进行过滤,去掉频度较低的词。该方法简单易行,但前提假设为低频词对分类的贡献度不高,这一假设在实际环境中可能并不符合事实,因此会在一定程度上影响分类效果。
(2)信息增益(Information Gain,IG)。是通过计算特征中所包含的信息量以确定所需特征项,根据某个词存在与否所能够对类别提供的信息量的影响进行文本特征提取,能够提升分类任务的效果,但计算量也随之大增。
1.3.2 倒排索引技术
倒排索引又称反向索引(Inverted index),与正向索引(Forward index)相对。在搜索引擎中,每个文件都对应一个文件的ID,每个文件可视为若干关键词组成的集合。正向索引的索引顺序为“文档—关键词”,首先扫描索引库中的所有文档,找到包含检索词的文档后,再根据模型打分,按分排序后反馈给用户。而倒排索引形成关键词到文件ID的映射,以词为核心,每个关键词对应一系列文档,形成“单词—文档”矩阵,以“关键词—文档”的索引结构完成检索。倒排索引技术面向单词标引,一次查询过程可遍历所有包含该词的文档,因此能够加快专利文本检索速度,对于要求响应时间更快的系统而言,倒排索引技术是非常合适的。倒排文档主要由词汇表和事件表两元素构成。词汇表即每个文档中大量词汇的集合,事件表存储单词与文档的映射关系以及单词在文档中所处位置、权重等信息,每个单词都有相对应的事件表。
1.4 专利挖掘系统框架
由上文对专利挖掘任务及相关技术分析可知,专利挖掘是一项系统性的工程,其核心是文本挖掘,专利挖掘系统主要包括三部分内容:专利信息文本预处理阶段、专利信息内容分析阶段及专利信息知识处理阶段。
1.4.1 预处理阶段
预处理在专利信息挖掘过程中占据了大部分工作量,对信息的预处理效果直接决定后续分析处理结果。专利文本的预处理的最终目的也同一般文本挖掘相同,是为后续计算机对信息内容的计算和处理服务,因此其步骤大致相同。需要经历语言学处理和数学处理两大部分。语言学处理包括分词、词性标注和去除停用词。语言学处理将文本转化为可概念化的文本,数学处理的过程对词语进行降维,利用TFIDF 等算法提取并选择特征项,基于向量空间模型,将文本转化为向量数据,将文字之间的关系内涵转化为向量计算。
1.4.2 内容分析阶段
专利信息内容分析的过程与一般文本挖掘的重心不同,文本挖掘是集中在对文本信息的分类和聚类上,重在挖掘文本之间的关联。而专利挖掘的重心在于专利本身内容的提取,因此更多偏重主题分析,提取专利的主题内容,再进一步获取专利之间的关系,类似于为每个专利绘制骨架图,使其能够符合一定规则下的比对分析,从而能够更直观地获取其中信息。对专利进行主题分析的同时结合专利的分类号等部分元数据,可以实现更为丰富的分析。
1.4.3 知识处理阶段
知识处理阶段是专利挖掘核心价值的阶段,主要包括知识发现、评价、筛选、解释和可视化的过程。知识的评价及之后过程还取决于主观因素,根据专利挖掘最终目的不同而有所偏差。最终通过可视化对专利挖掘的结果以更加直观的方法呈现,结合综合分析以报告等方式展现。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。