专利分析的本质是对专利信息的价值提取,该研究过程至少包括文献检索、统计分析和价值挖掘三个基本步骤。从数字属性的统计分析看,专利分析属于文献计量学的研究范畴;从文本属性的价值挖掘看,它又属于数据挖掘的研究范畴。因此,可将专利分析视为文献计量和数据挖掘的交叉学科。从可获取的国内外研究文献看,有大量与文献计量密切相关的理论方法被应用到专利分析中。而数据挖掘的方法也开始被广泛运用到专利分析过程之中。这主要是由于全球专利文献数量的急剧攀升造成的,海量的专利信息以及多维度的分析需求,导致传统的人工统计越来越力不从心,亟须找到理论支撑,并借助计算机工具来完成整个分析过程。
(1)文献计量学
文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,进而探讨科学技术的某些结构、特征和规律的一门学科,主要应用于科研评价、学科评价、人才评价、机构评价等方面。文献计量是一个相对“古老”的学科,它有着丰富的理论基础。目前,文献计量学依然被公认为国际图书情报领域内最活跃的一个分支学科,其应用范畴也在不断扩大。
计量统计学三大定律
1926年,美国统计学家洛特卡(A.J.Lotka)在《华盛顿科学院院报》上发表了题为《科学生产率的频率分布》论文,提出了定量描述科学生产率的平方反比分布规律,即洛特卡定律。
1934年,英国化学家和文献学家布拉德福(S.C.Bradford)在大量的文献统计调查的基础上提出了著名的描述期刊专业论文在相应期刊中的数量分布的集中与分散规律——布拉德福定律。该定律指出:如果将科技期刊按其刊载某学科专业论文的数量以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。若各个区的文章数量相等,此时核心区、相关区、非相关区期刊数量成1∶n∶n2的关系。
1935年,美国语言学家齐普夫(G.K.Zipf)提出了在用自然语言表达的文献中,词汇按其出现次数(词频)的分布近似地服从一次反比规律的齐普夫定律。实际上包括英语、汉语在内的多个国家的语言都有这种特点,这个定律后来在很多领域得到了同样的验证,包括网站的访问者数量、城镇的大小和每个国家公司的数量,而且基本上都符合“二八定律”。
文献计量学从20世纪70年代后期开始在我国传播和兴起。1979-1982年是国内文献计量学的起步阶段,1983年开始进入发展阶段。与国外不同的是,我国的文献计量学起步阶段很短,只经历了短暂几个年份之后便迅速进入了相对集中的发展阶段,这也是我国文献计量学的一个显著特点。逐步的,国内文献计量的发展已经初具规模,开始形成研究、教育和实际应用全面发展的局面,并不断取得新的进展,呈现出较快的发展势头。
(2)文献计量与专利分析
每一篇专利文献都包括技术方案和改进功效等内容。对这些被规范化著录的信息进行分析,可以了解技术发明的实质、专利权的保护范围和时限,以及由此所传递的市场信息。(www.xing528.com)
要将信息从专利文献中提取出来,离不开文献计量基本的理论支撑。基于时间序列、专利件数等统计分析,实际上都是文献计量学在专利文献领域的应用。张华宝(2010)等通过专利文献的总体变化趋势、专利分布领域和发明人等数据进行分析,对华南理工大学20多年来的国内发明专利和实用新型专利进行了统计分析,总结了华南理工大学科技创新活动的时间规律、领域分布、合作情况和发展趋势等,从而让读者对该高校的专利产出情况有较为集中的了解。
除此以外,利用文献计量学的方法还可以确定核心专利的范围,帮助研究人员更加方便快捷地掌握关键信息。张鹏(2010)等借助布拉德福定律对“计算机”和“锁相环”两个技术领域的专利进行分析,确定了核心专利的范围,并得到相关技术领域的主要发明人等信息。
近年来受到国内外广泛关注的专利地图分析法,实际上也是基于专利文献计量分析的一种可视化展示途径。国内已有较多学者利用专利地图对多个行业领域的专利发明进行研究。上海图书馆上海科学技术情报研究所专门组织研究团队对燃料电池机动车、风力发电、生物芯片、量子点等前沿领域的专利文献进行分析,借助丰富的图文信息揭示了各个行业的技术发展脉络,是目前国内该领域较为权威的研究机构。
(3)数据挖掘
数据挖掘的概念在1989年8月举行的第11届国际联合人工智能学术会议(IJCAI,International Joint Conference on Artificial Intelligence)上被首次提出。数据挖掘融合了数据库、人工智能、机器学习、统计学、可视化等多个领域的基础理论,一般指的是采用各领域的科学方法,在大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含的、预先未知的并含有巨大应用价值的模型的过程,从而帮助决策者寻找数据间的潜在关联,发现被忽略的因素。
数据挖掘包括数据获取和预处理、数据挖掘处理、数据可视化和情报分析四个步骤,其分析过程较多地采用基于自然语言理解、语义关联分析、词频分布统计、语料学研究等工具,是对传统专利分析方法的拓展和深化。相对传统的统计方法,数据挖掘方法具有特定的优势,它是在没有明确假设的前提下,通过包括分类或预测模型发现、数据总结、聚类、关联规则发现、时间模式发现、依赖关系等方法去获得基于文本内部联系的信息和趋势。
(4)数据挖掘与专利分析
近年来,数据挖掘的理论体系不断完善,并开始成为全球知识发现的重要工具,一些方法也被应用到专利分析的领域。数据挖掘对于专利分析的贡献在于其为专利文本的聚类分析提供了有效途径,研究人员可以运用语义分析等聚类方式对多个或同个专利族群进行分析,进而提取得到其中隐藏的数据信息。
Assad Abbas(2014)等人对采用文本挖掘作为研究方法的专利分析文献进行总结,发现与文本挖掘有关的研究主要集中在基于自然语言处理(Natural Language Processing,NLP)、基于功能属性(property-function based)、基于规则属性(rule based)和基于语义网络(neural networks based)的几个分支上。张颖(2010)等通过专利结构化项分析和建立关键词语义网络,提出了一种基于XML Schema的专利地图专利信息分析方法,并以湖北大重型数控机床产业为研究对象,分析该产业领域相关的技术发展趋势,为政府部门制定区域产业发展政策提供参考。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。