首页 理论教育 高校图书馆知识产权信息服务疗效探究

高校图书馆知识产权信息服务疗效探究

时间:2023-08-04 理论教育 版权反馈
【摘要】:2016年12月13日,国家知识产权局发布的文件《高等学校知识产权管理规范》中明确指出,可在图书馆等高等学校负责信息服务的部门设立知识产权服务支撑机构。

高校图书馆知识产权信息服务疗效探究

6.1 双创环境下高校图书馆专利挖掘服务组成要素分析

6.1.1 双创环境下高校图书馆专利挖掘服务主体

双创环境下高校图书馆作为专利挖掘服务主体,是专利挖掘服务的提供者。在国家“大众创业万众创新”战略背景下,高校图书馆亟待实现服务转型。2016年12月13日,国家知识产权局发布的文件《高等学校知识产权管理规范》中明确指出,可在图书馆等高等学校负责信息服务的部门设立知识产权服务支撑机构。在国家政策的支撑下,加之高校图书馆本身拥有丰富的专利数据资源、专业化服务平台与情报人才,使其逐渐成为专利挖掘服务的重要力量。但由于高校图书馆正处于服务转型初期,专利挖掘服务的能力与经验有限,因此多数图书馆采取与外部专利服务机构资源合作的模式,比如与国家知识产权局、地方知识产权部门、其他高校图书馆、社会情报机构、知识产权服务商合作,进行数据库资源和专利挖掘工具的采购与配置,对内部服务人员进行专利挖掘业务培训,或者对委托项目进行协同工作,从而保障专利挖掘服务的质量。由此可见,专利挖掘的主体为高校图书馆及专业馆员,其协同服务主体为政府知识产权部门、情报服务机构、知识产权服务商等,双创环境下专利挖掘服务主体的主要职能是负责专利数据提供、分析与处理、挖掘、专利分析技术报告形成等工作。

6.1.2 双创环境下高校图书馆专利挖掘服务技术

(1)专利语义检索技术。专利检索技术是专利挖掘的基石,是指通过一项或多项专利特征从海量的专利文献或数据库中查找出符合需求的信息。传统的专利检索包括基于外部特征和基于关键词的检索方式,其中根据专利分类号、专利名称、专利权人、专利申请日期等字段的检索一般用于特定专利文献的查询与获取。专利技术主题检索常采用关键词匹配的方式,然而此种方式会因词汇的表达差异而导致查准率查全率低下。随着计算机与人工智能技术的发展,语义检索在专利文献查询中应用广泛。基于领域本体的专利语义检索是运用本体建模、本体语义标注等实现知识关联与概念语义检索的技术。专利大数据的语义检索是基于知识组织体系和本体语义标注实现的,并分别依赖于关键词扩展技术与概念相似度计算技术,具体的检索实现过程如图3-9所示。首先,专利组织者采用信息抽取技术,从专利大数据中提取表示专利技术主题、方法、效果等的若干特征词,利用本体知识库对其进行语义标注处理。然后基于关键词扩展技术,并借鉴国际IPC分类体系,建立能够体现概念关系的语义知识库。当专利信息检索人员发出查询请求,系统会自动给出相关的概念集合。最后,通过与专利数据库中的概念匹配、数据筛选、相关度排序,系统将返回满足用户需求的信息。基于语义的专利信息检索技术既具有推理功能,有利于提高查全、查准率,又能够提供多种灵活的检索方式,比如条件检索、导航检索,满足用户个性化需求。目前,采用语义引擎的专利检索系统有Patentics、Total Patent等。

图3-9 专利信息检索过程

(2)专利统计分析技术。专利统计分析是一种定量分析方法,主要是对专利文献的外部特征进行统计分析与描述。专利统计分析技术在专利挖掘过程中起着重要的支撑作用,在宏观层面上可以帮助用户了解专利技术的发展脉络、技术热点、技术关系、整个领域的竞争态势等情况,有利于确定挖掘方向、启发技术创新思路及规避专利侵权等。专利统计分析一般以专利数量为单位,从专利的时间分布、专利权人、专利发明人、国家或地区分布、IPC、同族专利,以及自定义的专利技术分类指标等角度进行统计分析,从而获得各个领域专利数量的多寡、年度变化趋势、某领域的技术龙头、各个国家科研与开发的重点、某专利申请的地域广度及其潜在价值、某技术生命周期与生长率等信息。专利统计分析技术手段可以从整体上把握专利技术的分布概况与发展趋势,一般以原始数据列表、折线图等直观的图表形式加以展现。专利统计分析的工具多样,包括Aureka、Patent、Thomson Data Analyzer、大为、Innography 等各种类型,一些统计分析工具支持多种数据格式的导入导出、数据分析前的去重与整合等预处理。

(3)专利数据挖掘技术。专利数据挖掘技术是采用数学建模、人工智能及机器学习等方法,从海量的、无序的、繁杂的、随机的数据中,发现并提炼隐含的、具有潜在价值的知识,形成具有预测功能的情报。专利数据挖掘技术包括数据自动归类、聚类分析、关联规则、决策树、神经网络等。比如通过聚类分析将相似的、关联性较大的专利数据聚成不同子类,从而揭示特定技术领域各子领域的分布情况及竞争对手的活动轨迹;通过关键词共现分析预测新的技术增长点,发现技术机会;通过专利引证聚类分析,借助引证树形式揭示技术的关联性、技术路线的发展规律及不同申请人之间相似的兴趣点;利用决策树及定量计算对专利挖掘服务对象的有效技术创新进行识别认定,判断其是否具有可专利性;又或者借助神经网络技术进行专利技术的自动归类等。专利数据挖掘分析的对象包括专利分类号、申请人、发明人、引证信息、专利题名、摘要、权利要求书等各类数据信息。专利数据挖掘的一般过程为:首先是数据的采集、清洗与规范化处理;其次是利用 C4.5、K-Means、PageRank、Naive Bayes 等挖掘算法进行聚类分析、关联分析等数据挖掘处理;最后是分析结果的可视化呈现。目前,主流的专利数据挖掘工具包括R语言、Python语言、可以连接开源数据库的Rapid Miner Studio、Leximancer等。

(4)专利知识发现技术。专利挖掘是一项技术创新活动,核心是对专利技术信息的深度揭示与知识发现。目前,专利知识挖掘领域主流的方法与工具为语义TRIZ,它是对传统TRIZ理论进行的语义扩展,是基于SAO结构的一种特殊的知识组织体系。语义TRIZ融合了TRIZ理论中矛盾与规则的核心论断,又采用了语义分析中文本的自动与半自动化语义索引技术,以深度揭示海量专利中隐藏的技术信息内涵,识别技术创新的潜在技术方案。语义TRIZ实现的一般过程为首先从专利数据集中提取主题词并进行相应的清洗、合并及聚类等预处理得到问题与解决方案(P&S)的主题词聚类;其次从专利集中进行SAO结构抽取并将其作为基础的语义单元,结合模式匹配方法将SAO结构中的不同成分与P&S主题进行匹配与关联;之后进行专利语义TRIZ的索引结构构造;最后运用语义分析的知识发现原理,识别潜在的专利技术解决方案。语义TRIZ的应用领域广泛,包括专利技术的主题聚类分析、专利的技术演化路径分析、专利的自动归类与筛选、专利技术发展趋势预测等。语义TRIZ以可定量化、语义表达、细粒度与多维度的特性拓宽了专利技术挖掘的广度与深度。目前,基于语义TRIZ 的专利挖掘软件有IHS Gold Fire大数据创新软件等。

(5)专利可视化技术。专利可视化技术是将专利统计分析和挖掘的结果以图形或者图表的形式直观、清晰地呈现出来,实现专利信息有效和快速传播,提高专利服务人员的工作效率。目前的专利分析平台大多提供了可视化技术,包括专利检索的可视化、专利统计结果的可视化、专利文本挖掘和引证可视化等。比如中国知识产权大数据与智慧服务系统(DI Inspiro),为用户提供了可视化检索,借助气泡图的大小与距离显示关键词间的关系,并将其进行组配形成检索式。Innography软件为专利统计分析提供了条形图、饼图/环图、热力图、矩形树图、柱状图、气泡图、雷达图、世界地图等50种可视化图表类型,用来展示专利数量变化趋势、技术领域分布、技术演进、发明人实力对比、专利地区分布等分析结果。除此之外,专利地图是专利挖掘可视化中的核心技术,主要有专利技术地图、专利管理地图、专利权利地图等。比如通过专利技术功效图可以发现技术空白区与聚集区,识别核心技术与潜在技术;通过专利技术生命周期图判断技术发展趋势与成熟度,有助判断产品研发的空间与风险;通过专利权利要求分析图、专利范围构成要件图、专利范围矩阵分析图等进行技术的规避设计。专利地图以直观化的形式挖掘专利数据中的重点研发技术及技术壁垒等信息。目前,用于绘制专利地图的软件多样,比如patentexcel、TDA 软件、Aureka 软件等。

高校图书馆专利挖掘服务过程中运用到多种技术和方法,分别从专利数据采集与预处理、专利数据存储与管理、专利数据计算与系统分析等过程中分析相应的技术运用。

①专利数据的采集与预处理。专利数据采集与预处理平台是指通过自动或半自动化处理流程,从指定的数据源中识别、收集所需的专利数据,并能够对这些数据进行预处理或数据抽取的功能模块的集合体。目前,专利数据库服务商提供了多种免费或付费的检索平台,提供的专利数据库种类不一、检索途径多样。其中世界上对专利信息收录最全面、数据更新较快的两个专利数据库分别为USPTO(美国专利商标局)网站和DII(得温特专利索引)。它们的系统平台本身为用户提供了若干种专利数据检索与获取途径,然而实际运用过程中也存在诸多限制,比如单次数据导出数量限制、检索与下载的非自动化等,不便于批量数据获取。因此,国内外学者探索了多种专利数据采集与预处理的技术,比如基于Agent系统的Deep Web专利信息采集系统、全自动的网页数据抽取技术等。从他们的研究中可以发现,专利数据采集平台的设计需要具备自动获取批量数据的功能、平台界面与功能模块应直观和易用、保障专利数据的有效性和准确性等特性。专利数据采集与预处理系统平台架构大概分为5 层:硬件层、软件层、核心层、功能层与用户层。具体如图3-10所示。其中,硬件层为专利数据采集与预处理系统平台开发以及运行提供了必备的硬件设施;软件层则搭建了系统运行的环境与算法;核心层提供了系统实现数据采集与预处理的功能代码;功能层则是连接用户与核心层的纽带,屏蔽复杂的代码并向用户呈现交互式操作界面。核心层的各功能模块是实现数据采集与预处理的关键。数据采集任务配置包括与数据库的对接、数据下载路径的设置;然后是专利数据的检索、下载与保存,这一环节涉及与源数据库的数据交换;接着是数据的预处理,对下载的专利数据文件进行自动读取、识别、清洗与重组,执行数据的抽取。核心层完成工作后,通过功能层响应用户请求,并将结果返回用户的终端设备。

图3-10 专利数据采集与预处理平台架构

②数据的存储与管理。高校图书馆进行专利挖掘服务过程中会产生各类数据,包括专利检索式、专利文献、碎片化图表、著录信息、参考资料(技术信息、法律信息、经济信息),以及最后生成的专利挖掘专题报告等。目前,专利数据资源增长迅速,呈现出海量化特征,专利服务人员需要专门的系统平台对这些数据进行存储与管理。然而诸多专利服务机构对数据的存储与管理较为分散、格式不统一、载体多样化。因此,国内外学者对专利数据的存储技术展开了研究,包括数据库存储、文件存储及云存储,云存储是对分布式存储的延伸,用于海量数据的存储与管理。无论基于哪种技术的专利数据存储与管理平台,都应实现专利数据的编目处理、集中存储与有效管理。

数据存储与管理的系统平台构建包括以下板块:硬件与存储设备、数据存储架构、数据存储技术与平台、数据管理模块。具体如图3-11所示。硬件与存储设备包括服务器、交换机、路由器、网络、磁盘、存储器等;数据存储架构包括三种,分别为DAS、NAS、SAN,用户应根据需求进行选择;数据存储技术与平台包括面向非结构化数据存储的Hadoop平台、NoSQL数据库,面向结构化数据存储的ODS(操作数据存储)、DW(数据仓库)等,这些存储平台能够完成对导入数据的聚类、格式化,分别将聚类后的信息及目录索引存储至不同区域,便于检索。数据管理平台中应设置数据导入、数据分类导航、数据备份、数据查询与下载、数据修改、数据删除等功能模块。

图3-11 专利数据存储与管理平台搭建流程与模块

③数据的计算模式与系统。随着大数据时代的到来,专利信息也变得更加多样与生动,将专利大数据与其他数据资源进行融合、匹配、计算、建模,进而为各类创新主体提供个性化服务与决策支持逐渐成为专利服务机构的发展方向。高校图书馆作为创新创业的情报服务机构,应以产业需求为导向,引入专利大数据计算模式与系统,将专利信息与行业、产品、金融等数据资源进行融合、分析,利用数据挖掘服务科研创新,而支持专利大数据分析服务的系统外环境便是大数据的计算技术。数据计算即从海量的单一的数据点中提炼信息,并建立模型的过程。数据库是数据分析中的重要平台,它不仅用于数据存储,更涉及数据计算,然而受封闭性的限制,很难满足对海量数据的计算需求。而理想的数据计算模式应该是独立于数据库之外,并不受应用程序的限制,对不稳定的数据可以落地到文献系统,计算层应具有完备的计算体系。

目前,主流的数据计算模式及对应的系统如图3-12所示:一是批处理计算。批处理一般用于处理大量的静态数据集,最常见的批处理计算系统是MapReduce,它的数据处理过程采用单输入、两阶段方式,提供了一个统一的并行计算框架,能够减轻程序员对并行化程序进行设计的负担。二是交互式计算模式。它采取人机对话的方式,系统根据操作人员的请求,给予相应的提示,引导他们进行操作并获取处理结果。三是流式计算模式。该种计算模式能够实现数据的实时计算,避免造成数据遗漏和堆积,对应的系统有Scribe、Flume、Storm 等。四是迭代计算模式,它能够突破批量计算中难以迭代的技术缺陷,典型应用系统有HaLoop、iMapReduce等。五是图计算模式。图计算能够以节点和边表示事物之间的关系,对应的系统有Pregel、PowerGrapg等。第六个是内存计算模式。内存计算可以实现对数据的并行处理,无须数据预处理与建模环节,便能够对海量数据进行实时分析,应用系统有Dremel、Hana等。

图3-12 专利大数据计算模式与系统

6.1.3 双创环境下高校图书馆专利挖掘服务内容

(1)专利技术挖掘服务。专利技术挖掘服务是高校图书馆面向企业或科研团队等双创用户,从他们的创新成果中发掘出具有专利申请与保护价值的技术创新点或技术方案。具体包括以技术研发为目的的专利挖掘、围绕技术改进的专利挖掘、致力于完善专利组合的技术挖掘等。首先,在双创用户创新立项前期,高校图书馆需针对某一特定行业的单一技术领域进行全球范围内的专利检索与分析,包括专利申请态势分析、技术来源国分析、重点专利与无效的展示、技术功效分析与专利技术路线分析等,全面了解该项技术的研究与发展情况,识别前沿技术与空白领域,帮助用户定位技术研发方向。其次,专利技术改进挖掘服务是面对现有产品存在的技术壁垒或缺陷,专利服务人员围绕要素替代及其关系变更、要素省略等方面进行技术改进,从而形成新的技术创新点,进一步发掘专利点。另外,从完善专利组合的角度开展的专利技术挖掘服务是将多个孤立的专利,根据它们的内在联系组合成相互补充与支持的整体,发挥集成价值。高校图书馆专利服务人员须理清核心技术、基础技术与外围技术,确定每件专利的重要性,并通过专利组合、卡位,形成严密的专利布局网络,培育创新主体核心技术竞争力。

(2)定题专利分析服务。定题专利分析服务主要是针对发明人研究领域的专利情况进行分析,服务对象是高校教授、领域专家等个人。高校图书馆专利服务人员根据委托人提供的现有研究成果和已公开的专利清单,首先明确需要分析的技术要点及所属技术领域,帮助梳理客户现有专利的法律状态,发掘、转化其中的高强度专利,并基于对客户自有核心专利的识别,挖掘技术替换或优化的方案,提出更多的创新点,进行新的专利申请。其次,专利服务人员可以对同一技术领域的相似专利进行检索与分析,对比客户自身专利,寻找遗漏的、仍有希望申请专利的技术方案,或者从相似专利中得到启示,为进一步的发明创造提供思路。此外,定题专利服务还包括为用户定期跟踪捕捉特定行业的发展情况,了解相关技术领域企业或国家的布局活动,掌握最新市场动态,为产品或技术研发、立项开展提供依据。定题专利分析服务最终以报告形式递交委托人,内容涵盖委托人专利情况概述、专利申请与授权趋势、专利技术热点与竞争态势、高价值专利挖掘、专利技术改进方案、行业最新技术发展动向等。

(3)围绕专利预警的情报挖掘服务。高校图书馆围绕专利预警提供情报挖掘服务主要是面向高校课题组、科研院所、企业或者个人,根据他们的需求,在产品或技术研发过程中通过对已有专利的分析,规避侵权风险。具体包括技术点预警、竞争对手预警等。对于技术点专利预警的情报挖掘服务体现在规避设计与侵权分析方面。具体服务过程为:在客户确定研发主题之前,专利服务人员须针对目标市场进行专利检索,借助技术功效矩阵确定规避设计的目标专利,并提出可替代性的技术方案。其次,在产品设计或技术研发过程中对现有或新增专利进行技术相关性筛选及其申请、授权、转让、新增同族专利与异议专利等法律状态的确认,确定高度相关且现行有效的专利,并与在科研的技术特征逐个对比,进行专利侵权分析,不断调整专利战略。最后,在产品上市阶段进行专利的跟踪检索与法律风险评估。对于竞争对手的专利预警分析包括对竞争对手核心专利的识别、专利法律状态的确定、在不同国家的专利布局分析等,据此改良或者规避他们的关键技术,形成自主知识产权,并选择专利申请的最佳时机与保护范围。

(4)机构专利竞争力分析服务。高校图书馆开展的机构专利竞争力分析服务是了解委托机构研发能力与水平,并进行准确市场定位的依据,也是专利挖掘的基础性与支撑性服务。主要指面向高校本身、科研院所、政府及企业等机构,针对其专利整体情况进行统计分析、客观评价和建议,帮助委托单位完善专利工作。具体内容包括宏观层面的机构专利申请量及逐年变化趋势分析、专利申请国家和地区分布、专利技术领域分布、专利发明人、专利的转化率失效率分析等;该机构高强度专利的数量、技术热点、失效情况、市场需求、竞争力分析等;以及与同类型同水平机构之间专利情况的对比分析。通过机构专利竞争力分析,可以帮助委托单位对自身科研与技术创新能力有较清晰的认识,帮助其调整专利战略。比如通过对高校整体及各院系专利成果、有效期和转化等情况进行分析,协助学校制定专利成果转移与转化的策略,为“双创”背景下的产学研结合提供支持。通过对企业的技术竞争力评价,对比同行企业的技术优势与劣势,判断竞争对手的专利战略,完善自身专利布局。

(5)其他专利挖掘服务。高校图书馆专利挖掘服务还包括对相关产业的情报获取与分析、专利布局、专利竞争对手分析、专利价值评估、专利交易挖掘等增值服务内容。其中,对产业的分析包括双创背景下的专利产业化现状、专利许可与转让的比例、影响专利成果转移的因素、市场需求、产业供应链、未来投入厂商等方面的分析。通过对产业化信息的全面把握,能够为企业或高校科研团队的专利技术挖掘与研发、专利转移转化提供指引。专利布局依托于专利挖掘,通过完善专利组合和包绕竞争对手的专利挖掘,帮助委托机构从时间、技术、地域、产品等多纬度出发,构建严密的专利网。专利竞争对手的分析包括对其产品特征、资源投入、市场分布等情况的全面了解,从而在细分市场、行业前沿或技术拓展方向寻找威胁竞争对手的专利部署点。专利价值评估包括技术价值、经济价值与法律价值的评估,能够为高强度专利的挖掘、成果交易提供价值依据。专利交易挖掘主要服务于高校与企业的专利转让、转移与转化,形成产学研协同创新机制。

6.1.4 双创环境下高校图书馆专利挖掘服务对象

高校图书馆专利挖掘服务对象即是双创用户,包括了高校科研创新团队与管理部门、委托企业或组织、政府或学校行政机构等。

(1)高校科研团队与管理部门。高校专利挖掘服务的核心用户群是高校内部的科研团队与管理部门。科研团队包括院系的各课题组与大学生创新创业团队。对于课题组的教师而言,从事科学研究活动具有自由性、知识性、相对独立性的特点,对科研成果的市场应用前景关注较少。而大学生创新创业团队作为市场的新生力量,实践经验匮乏,对行业发展缺乏全面认识。因此,大部分高校科研团队的专利保护与技术转化意识薄弱,他们对于专利挖掘的服务需求一般集中于专利检索与专利技术挖掘,而高校图书馆作为服务主体,可通过嵌入式模式参与科研项目的全过程,强化科研人员的专利意识。高校内部专利分析服务的另外一类用户是高校知识产权与科研管理部门、学科处等,他们主要负责对学校所有科研成果的管理,然而他们缺乏专业分析平台与专业人才的支撑,需要图书馆辅助开展学校专利竞争力分析、价值评估、高价值专利发掘与转化、科研规划等服务。

(2)委托或合作企业。在创新创业战略驱动下,产学研紧密结合已成为高校发展的一个重要命题。高校科研团队也逐渐与企业开展合作,促进成果转移转化,形成协同创新的产业发展链条。因此,企业也成为高校图书馆专利挖掘服务的主要对象。企业类型多样,包括研发型、生产加工型、销售贸易类,他们的规模不一、发展阶段不同、信息需求差异化显著,对专利挖掘服务的要求相比高校科研团队而言更加深入与综合化。企业的专利挖掘服务需求特征体现为:一是委托服务的业务领域多样,包括技术研发、专利申请、产品对外投资、技术引进、专利交易、专利战略制定、寻找合作伙伴等多个业务领域,均需要专利挖掘服务的支撑。二是需求变化的层次性。包括初级、中级和高级的专利挖掘需求,由浅入深,比如专利查新服务、专利技术挖掘、贯穿研发过程的专利规避设计与跟踪预警服务等。三是需求的长期性。企业对专利挖掘服务的需求是持续性和长期性的,需要图书馆员充分了解企业的技术、文化与管理概况,以及行业市场环境。

(3)政府或学校行政机构。在国家“双创”战略落实的过程中,离不开知识产权的应用与保护,而地方政府能够为知识产权制度的良好运行提供战略指导、制度保障与政策扶持。地方政府由于缺乏专门的专利人才,其门户网站所提供的知识产权服务有限,在专利挖掘和利用等方面不够系统与深入。目前,多数高校图书馆与当地政府机构开展合作,为其提供专利分析与挖掘服务。地方政府负责产业政策的制定、市场监管、社会管理,各职能部门对专利分析与挖掘服务提出了不同需求,包括政策需求、产业需求、行业需求、技术需求等。高校图书馆通过对地方各个产业的专利情况、行业专利技术发展态势、与其他地区专利申请对比等分析,帮助政府制定项目支持政策、调整产业结构、引导企业技术创新等。

6.1.5 双创环境下高校图书馆专利挖掘服务环境

(1)信息资源环境。

①政策信息资源环境。高校图书馆开展专利挖掘服务,除了要获取海量的专利文献作为统计与分析的对象之外,还需要一些非专利信息资源来补充背景信息与专业知识,政策信息资源便是其中的一种。高校图书馆可以通过对专利政策的解读,帮助用户制定专利申请与转化策略;通过对国家产业政策的及时掌握,预测市场发展趋势,帮助用户进行前瞻性的专利布局与专利挖掘;通过对法律政策的全面了解,协助专利预警分析,避免专利侵权。由此可见,政策信息也是专利挖掘服务中不可缺少的环境资源。

高校图书馆获取和利用专利政策信息资源的方式有两种,一种是订购政策法规数据库及相关数据库,比如国务院发展研究中心信息网、公共政策智库、中国法律知识资源总库、知网中的行业知识服务平台等,涵盖了行业经济发展的政策导向、法律法规与重点行业的发展趋势信息。另一种是利用全媒体政策资源共享平台,平台类型包括政府门户网站、行业网站、政务微信公众号、政务APP、政务电视频道等。其中,整合并发布政策信息资源的门户网站有中国网中的政策信息栏目、中国政策研究网、中国政府网、各级各类政府网站(如中国知识产权局网站、中国科学技术部网站、地方政府网站)等;行业网站如中国高新网、电子信息产业网、中国农业网等;政务微信公众平台如国务院公报、科技日报、中国知识产权报等。除此之外,还有WAP、政府官方微博等信息资源发布平台。政策信息资源平台具有多样化、开放性与共享性的特征,资源获取方便、快捷,能够为高校图书馆专利分析服务提供政策指引,具体的政策信息资源获取平台类别如图3-13所示。

图3-13 政策信息资源获取平台类型

②学科信息环境。专利服务是一项“技术+法律”相结合的特殊行业,它对服务主体的专业素养要求较高。因此,高校图书馆馆员在开展专利挖掘服务时,需要大量的学科信息作为对专业知识的补充,掌握学科基础理论、了解技术原理与技术前沿是阅读与分析专利文献的基础。另一方面,高校图书馆为科研团队开展学科知识服务,协助学校科研人员选题、立项、实现技术创新也是专利分析与挖掘服务工作的一部分,在此过程中同样需要除专利文献以外的学科信息作为参考。

学科信息资源平台分为高校图书馆内部资源平台与外部网络资源平台两种。其中,图书馆内部学科信息资源平台包括专业学科数据库、学科知识库、学科成果库、学科专题文献库、学科工具库、精品课程库等,这些平台中的学科信息资源又呈现出不同的聚合模块,体现为期刊、电子书、会议论文、学术论文、报纸等形式。最终,高校图书馆以门户系统将平台资源进行整合,并按照学科分类导航机制进行资源的组织。整个系统架构由平台基础设施、信息资源库、平台服务及业务应用层构成,用户在访问资源时需要进行身份认证、访问控制与访问统计。外部网络学科信息资源平台包括学科导航库、学术会议库、学术搜索引擎、学术论坛、学术博客等基于Internet的开放式平台。其中,学科导航库是将网络资源中有用的学术信息按照学科进行搜集归类所构建的系统,比如CALIS重点学科导航库、方略学科导航库等,高校图书馆可以通过合作方式进行平台资源利用。其他的网络学科信息资源平台一般为开放获取,具有资源共享的特点。高校图书馆开展专利挖掘服务,以自身作为中心,连接不同的学科资源平台,促进平台互动与资源整合。综上,学科信息资源平台类型及平台架构如图3-14所示。

图3-14 学科信息资源平台

③社会信息环境。社会信息环境是除政府与企业以外的其他社会组织或者个人所拥有的信息,是与人们生活密切相关的社会服务或社会管理领域的信息资源,具体涵盖经济信息、市场信息、科技信息、文化信息、国防信息、教育信息等信息环境。高校图书馆在双创背景下开展专利挖掘服务,需要时刻关注社会发展动向,收集最新行业资讯、技术前沿、社会文化大环境和市场变动等信息。因为专利情报不仅具有技术情报、经济情报、权利情报的属性,同时还具有社会需求情报属性,因此掌握社会信息资源有助于提高专利挖掘服务的全面性与准确性。

社会信息环境变化多样,对于高校图书馆而言,一方面可以购买整合的数据库资源,由服务商定期更新信息;另一方面可以运用网络中开放的社会信息资源平台。

(2)专利挖掘服务环境。

①双创方向指引服务环境。在国家“创新创业”战略引导下,高校图书馆应以创新创业基地、科技密集型企业、大学科技园等“双创”载体为重点,深入开展产业分析、专利大数据运用、技术保护等不同层次的专利分析与挖掘服务。因此,高校图书馆专利服务人员需全面了解创新创业的相关政策与市场环境,在为创业者发现专利点的同时提供双创方向指引,具体实施可以依托双创方向指引服务平台。双创方向指引服务平台分为两种,一种是政府主导型服务平台,一种是市场化服务平台。其中,政府主导型服务平台一般由政府出资支持,面向地方创新创业主体开展公益性服务。此类平台充分整合了公共资源,服务对象广泛,然而服务内容较为单一,主要包括政策指导、新闻资讯、创新创业活动动态发布、示范项目展示等模块。相对地,市场化双创方向指引服务平台更加趋向于市场营利,这类平台的特征体现为:联合多方资源开展运营,如教育资源、投融资资源、技术资源等;能够充分活跃市场,多样化服务内容与模式,如提供创新创业在线培训、创业故事、典型项目展板、双创活动公告、创业孵化平台、商业实战训练平台等模块。

②双创技术导向服务环境。2013年,国家知识产权局提出要将专利服务嵌入到产业技术创新与商业模式创新中去。专利服务一端面向市场,一端连接技术。技术创新是帮助创业企业走向市场并维持竞争优势的根本。对于创新创业主体而言,要么掌握开创型技术,拥有某领域的基础或核心专利,要么掌握领先型技术,才能在市场立足、站稳。因此,高校图书馆在面向双创主体开展专利挖掘服务时,要聚焦多个产业领域的前沿技术,促进中小企业科技转移转化,夯实双创基础,具体实施可以依托双创技术走向服务平台。一般地,政府主导型的创新创业服务平台综合性较强、内容宽泛,较少涉及技术升级与产业转型的专深化、精准化的导向服务。市场化的双创技术导向服务则包括技术研发与创新导向、技术转移导向、技术交易导向等。比较典型的双创技术导向服务平台如科易网、UTEK 的技术转移平台、技E 网等。

③双创风险规避服务环境。创新创业主体在发展初期会面临各种风险,比如技术风险、市场风险。技术风险又包括技术泄露风险与专利侵权风险,而规避技术风险的主要着力点在于通过专利规避设计和专利保护服务,充分借鉴已有专利技术的经验教训,降低风险概率。市场风险则主要来源于需求的变化与竞争对手的压力,对创新创业主体开展创新技术保护、项目风险评估、专利申请战略制定等服务是应对市场风险的重要举措。此外,对于初创企业来说,需要专利服务团队为其开展周密的专利布局,利用大数据挖掘,定位具有市场前景优势的技术。由此可见,在高校图书馆的专利挖掘服务中,双创风险规避服务至关重要,服务开展则依托双创风险规避服务平台。市场化的服务平台一般会面向不同的行业领域分专业、分类型提供风险分析与风险规避的导向服务,如提供技术或市场风险规避的信息资源平台、经验交流平台、定制化解决方案服务模块等。例如,快技网是一个知识产权营利的综合服务平台,主要为创新创业的主体提供技术创新服务、商业模式创新及专利运营等服务。其中,该平台提供的双创风险规避服务涵盖专利侵权规避与企业风险评估。对于专利侵权规避服务,该平台中整合了关于专利侵权判定的原则、案例及诉讼防卫策略等信息资源,并提供了专利规避的经验、方法与思路,帮助双创主体避免无效研发与卷入法律诉讼的风险。在技术研发方面,该平台为双创主体提供最前沿的技术追踪和技术生命周期分析,真正实现技术创新。对于企业风险评估服务,快技网以定制化方式,根据创新创业主体需求,通过大数据分析方法揭示企业品牌风险与商业秘密风险,并提供相应的风险规避解决方案。

6.2 双创环境下高校图书馆专利挖掘服务要素关系

6.2.1 要素关系逻辑图

高校图书馆的专利挖掘服务系统由服务主体、专利挖掘服务技术、专利挖掘服务内容、专利挖掘服务用户、专利挖掘服务环境5个要素构成。这5个要素之间的互动关系如图3-15所示。其中,高校图书馆作为服务主体,是最基本的要素,它主导着整个系统的运作并影响其他4个要素的发展方向及水平。高校图书馆的人才队伍、资源配置、与其他知识产权机构的合作机制等因素均是决定专利挖掘服务质量的关键。专利挖掘服务技术则是高校图书馆开展专利挖掘服务的重要支撑,它囊括了专利挖掘服务的方法与工具,能够有效提升服务的效率与质量。专利挖掘服务内容是核心要素,它是联结服务体系中供需双方的纽带,是高校图书馆开展专利挖掘服务工作的客体与成果,也是用户的需求。专利挖掘服务用户相对于服务供给方,可以称之为需求主体,用户提出的服务要求是高校图书馆确定整个专利挖掘工作方向、内容、进度和质量的依据。专利挖掘服务环境作为系统外部保证性因素,保障和规范高校图书馆专利挖掘服务。专利挖掘服务5个构成要素之间相互作用、相互影响,同时也会受到外界环境的干扰,比如国家政策与制度、市场变动、高校的保障机制、信息技术的发展等,也因此形成了整体的、开放的、不断自我完善的专利挖掘服务系统。

图3-15 高校图书馆专利挖掘服务系统要素关系逻辑图

6.2.2 要素间促进关系

高校图书馆专利挖掘服务的构成要素之间存在相互促进的作用关系,具体如图3-16所示。

图3-16 高校图书馆专利挖掘服务要素的促进关系

(1)专利挖掘服务技术要素对专利挖掘服务的促进作用。高校图书馆专利挖掘服务系统中,技术是支撑性的因素,也是提高服务效率、服务深度与广度的有力手段。专利挖掘服务技术要素对服务要素的促进作用体现在以下方面:首先,专利挖掘服务是在获取与查阅专利文献的基础上产生的,专利资料的全面性、完整性、易获取性是决定专利挖掘服务准确度的首要条件,而基于领域本体的专利语义检索技术提供了布尔逻辑检索、关键词检索与自然语言处理等多种手段,为专利挖掘服务提供了资源保障。其次,基于领域本体的专利挖掘技术集成了统计学、大数据挖掘、语义网等多种方法与工具,一方面减少了专利挖掘服务过程中人工操作的烦琐与失误,提高了工作效率。另一方面使得专利挖掘服务更加深入、全面,分析结果更加直观与准确。最后,基于领域本体的专利挖掘技术的发展与创新会不断拓宽专利服务的领域,使得服务方式更加灵活与个性化。

(2)双创用户对专利挖掘服务的促进作用。高校图书馆的专利挖掘服务是面向高校科研团队、委托创新企业或政府等双创用户展开的。双创用户需求是服务的前提,是促使高校图书馆专利资源与平台建设的根本。首先,双创用户不同程度的知识产权素养、个性化的专利需求与行为差异对高校图书馆专利挖掘服务提出了多样化的要求,使得高校图书馆在任务驱动下不断拓展服务范围、深化服务层次、引进专业人才与各种分析工具。其次,高校图书馆在服务过程中,通过与用户的交互,有助于不断调整服务策略,完善专利挖掘服务的质量控制标准。此外,双创用户对高校图书馆专利挖掘服务的监督,是提高服务效率、促进服务协同的有力措施。高校图书馆只有最大限度、最高效、最便利地满足用户需求,才能专利挖掘服务的投资效益最大化。

(3)专利挖掘服务主体对其他四个要素的促进作用。高校图书馆作为服务的主体要素,对专利挖掘服务技术、服务内容、服务用户都有着促进作用,对专利挖掘服务环境起到规范制约的作用,提供保障和支持。无论是资源建设、技术的运用,还是专利挖掘服务的设计与操作均离不开图书馆馆员的参与,专利挖掘服务主体的素养与能力是图书馆服务创新的最核心动力。基于领域本体技术环境下,高校图书馆专利挖掘服务人员在采纳与利用领域本体技术的同时,可能会发现领域本体技术优缺点,从而促进领域本体技术的更新与功能的完善。专利挖掘服务主体要素与服务要素的关系最为明确,主体提供服务,它决定专利挖掘的技术领域、内容、流程、进度与成果,也是影响专利挖掘服务质量的最直接因素。服务主体对于双创用户的促进作用则体现在从语义技术层面为双创用户提供了技术研发、技术创新、专利申请、专利保护,甚至是产业发展的情报与战略支持。

6.2.3 要素间阻滞关系

高校图书馆专利挖掘服务系统构成要素之间在相互促进的同时也存在着一定的阻滞关系,如图3-17所示,主要体现在以下方面:(www.xing528.com)

图3-17 高校图书馆专利挖掘服务要素的阻滞关系

一是专利挖掘服务技术要素对专利挖掘服务的阻滞。专利挖掘服务技术是高校图书馆开展专利服务必不可少的支撑条件,然而基于领域本体语义层面技术的引进会经历测试、融合、馆员培训等阶段,由此会导致专利挖掘服务的延后性。并且,一旦基于领域本体的专利挖掘与分析的工具或系统平台出现故障,也会中断专利服务,影响工作效率。

二是双创用户对专利挖掘服务的阻滞作用。高校图书馆的专利挖掘服务源于用户需求,而由于双创用户自身的专利素养参差不齐,一些双创用户存在项目委托的内容和范围表述不明确、对专利服务人员的工作过度干预或提出无理要求等,均会阻碍专利挖掘服务的开展。

三是专利挖掘服务主体要素对专利挖掘服务的阻碍作用。高校图书馆作为专利挖掘服务的主体,其人员配置、资源建设、经费支持是开展专利挖掘服务的保障。换言之,高校图书馆人才的缺失、资源与经费紧张、管理层不重视,以及软硬件建设问题,特别是对于语义技术的掌握程度和能力,均会成为基于领域本体的专利挖掘服务的阻碍。“双创”是实施国家创新驱动战略的重大行动,需要充分发挥高校、企业、政府等机构的创新优势,加强基础研究与核心技术研发,各方面形成联动作用机制,构筑产学研协同创新体系,激发经济活力。高校图书馆在“双创”背景下开展专利挖掘服务是以促进区域协同创新为宗旨,联合知识产权机构、知识产权服务商、社会情报机构及其他高校等多方资源,依托先进的专利挖掘服务技术与系统外环境,形成了多样化的专利挖掘服务模式。本章根据服务对象和主要服务需求的不同构建了四种专利挖掘服务模式,分别为专利语义检索与查新服务模式、专利主题挖掘服务模式、关联专利知识发现服务模式、专利技术预测与预警服务模式。

6.3 双创环境下高校图书馆专利语义检索与查新服务模式

高校图书馆专利语义检索与查新服务模式是面向高校内部各院系的双创科研团队开展的新型服务模式,由高校图书馆学科馆员融入创新创业项目的全过程,根据双创用户的专利检索和查新需求,在知识库中匹配出满足用户需求的专利资源和相关的专利内容资源,为双创科研人员提供系统化、全局性、个性化的专利挖掘服务。传统方式的高校图书馆专利检索和查新服务仅仅停留在检索词的表面特征,没有深入到语义层面。因此,仅仅能提供专利检索与下载、专利数据库的检索技巧与技能培训、专利申请与保护等方面基础性服务,导致专利服务中专利检索与查新的效率和准确性较低。为了有效提高专利检索与查新的服务水平和能力,需要深入到检索和查新的语义层面。领域本体的引入能够有效解决高校图书馆传统专利检索与查新服务存在的问题。通过引入领域本体深入挖掘出各专利信息相互之间的内在关系,使得专利检索与查新结果能够更准确、更全面地反映出用户的实际检索与查新需求,提高专利检索和查新效率、检索质量等。鉴于此,本研究根据高校创新创业用户需求特征及语义知识检索过程,引入领域本体构建创新型的高校图书馆专利检索与查新服务模式。

6.3.1 专利语义检索与查新服务模式设计思路

高校图书馆专利语义检索与查新服务模式最终实现的功能为基于领域本体的高校图书馆专利检索与查新、专利导航与索引等专利挖掘服务功能,让双创用户可以方便地获取和利用高校图书馆专利挖掘服务。为了实现该服务功能构建模式思路如下:①首先需要建立相关领域专利本体知识库,为后续的基于领域本体的语义化知识检索和查新提供数据和资源保障;②基于领域本体进行语义化推理和计算,挖掘潜在的隐性专利知识,揭示隐性专利知识之间的关联;③实现专利检索与查新、专利知识发现、专利关联关系推荐和专利问答等服务功能;④运用知识图谱可视化的方式展示获取的专利资源,对挖掘和检索出的专利以知识图谱的方式进行可视化展现,便于双创用户的获取和利用。

6.3.2 专利语义检索与查新服务模式总体框架

高校图书馆专利检索与查新服务的模式可以分为数据层、功能层与服务层3个层次,构建的服务模式框架如图3-18所示。

图3-18 高校图书馆专利检索与查新服务模式总体框架

(1)数据层。数据层处于构建的服务模式的最底端,主要是提供专利数据仓储、本体语义标注和检索数据获取等基本功能。同时构建了实例索引、三元组索引和词条索引三种类型搜寻方式。基于领域本体的专利语义检索与查新服务区别于以往的高校图书馆专利检索与查新服务,其相关专利领域本体知识库的构建是建立专利检索与查新服务模式的基础,通过抽取特定专利领域初始语料库,再利用语料特征、本体标注等方式构建相应的领域本体知识库。例如:可以通过美国专利数据库USPTO检索抽取某个领域的专利数据,然后结构化存储到相应的数据库,然后通过构建的相关专利领域词典来抽取专利特征,进而本体编辑工具Protégé 4.1完成领域本体的编辑,构建专利领域本体知识库。

实例索引主要是帮助双创用户在检索框中输入检索与查新词条时能够根据用户输入情况给出相应的提示词,匹配或推荐词语;三元组索引主要是支持进行专利的快速检索,为结构化的查新和检索提供前提条件;词条索引主要是对专利文献资源库中收录的相关领域专利术语词条进行索引,从而实现专利文献的全文检索和查新。

(2)功能层。功能层处于构建的服务模式的中间层,主要是为专利检索和查新提供数据处理和技术支撑。它运用专利语义检索搜索引擎完成专利挖掘服务的查询映射分析、检索调度、检索结果相似度计算等核心功能。

首先,专利语义检索引擎对用户输入的检索与查新需求词语规范化和映射解析,构建规范化的查询表达式,进行语义匹配,执行检索任务。高校图书馆专利语义知识检索与查新功能具有理解和处理自然语言的能力,可对用户输入的检索与查新词实现概念层次上的词义扩展,挖掘隐含知识来扩展专利检索与查新的范围,向用户提供同义词扩展检索、关联词语等不同形式的语义检索,从而突破传统检索模式单调化、表面化的问题,充分保证双创用户专利检索与查新的效率。

其次,设计了普通检索、关联检索和时序检索三类检索入口来满足双创用户专利检索和查新功能,需要依据不同的实用情境进行选择。其中,普通检索是协助双创用户完成基本的检索,需要从双创用户提供的检索词或语句中提取专利领域本体知识库中的实体词和预定义的变体词,依据检索召回情况构造实例检索式、关系检索式及关联检索式等。关联检索式允许用户根据实体之间的相互关联来发现专利知识内容之间的联系,也可以由用户选择两个实体来构建检索式,进行关联专利知识内容的挖掘和发现,实现相关专利知识内容推荐和索引。时序检索是用于查询限定的时间范围的专利申请、保护、相关的专利事件、会议和文献资源等内容。

另外,语义检索引擎还需要完成推理、相似度计算、排序等功能。对于专利检索与查新过程中语义相似度的计算是很关键的一个步骤,运用相关的算法和语义相似度计算方法来实现相应的功能。

(3)服务层。服务层又可以被称为接口层,是实现人机交互的功能层,包括双创用户的检索词输入接口与检索结果展示界面。高校图书馆专利语义检索与查新服务的服务层通过语义检索引擎将检索式构造、查询检索、相似度计算、排序等处理过程,运用可视化的工具提供专利检索服务、专利查新服务和专利问答、关联专利索引和查新等服务。服务层能够提高用户专利检索与查新的效率,并能够借助专利挖掘服务平台发现潜在的隐性和关联的专利知识内容,建立相关的索引和导航,从而提供专利知识内容索引和导航服务。同时,服务层也可以实现反馈功能,与双创用户之间进行沟通和交流,进一步挖掘双创用户的专利检索与查新需求,提高专利挖掘服务质量和效率。

6.4 双创环境下高校图书馆专利主题挖掘服务模式

高校图书馆专利主题挖掘服务模式是双创用户开展的深层次新型专利服务模式,面向用户需求,运用领域本体、文本数据挖掘、可视化工具对专利文本数据进行深度挖掘和分析,从而为双创用户提供智能化的主题式服务模式。以往传统的高校图书馆专利信息分析方法主要是针对专利文本数据的外部特征进行统计分析,获取的专利知识量有限,在对专利文献挖掘过程中,基于关键词及其词频统计的内容表达方式难以反映专利文献内容真实语义,仅实现了语法层面的浅层知识获取,并不能很好地为双创用户提供服务。然而,专利主题能够较好地描述专利的相关内容信息,引入领域本体对整个专利文本主题挖掘过程进行指导,可以通过本体对专利领域知识进行结构上的预处理,使得这些专利数据更具有语义的内涵,在专利语义挖掘时也可以实现语义层次的处理,大大提高专利主题挖掘的效果。鉴于此,本研究根据高校创新创业用户需求特征及专利文本主题挖掘服务过程构建了高校图书馆专利主题挖掘服务模式。

6.4.1 专利主题挖掘服务模式设计思路

高校图书馆专利主题挖掘服务模式的建设目标是在构建的专利领域本体知识库基础上,运用文本数据挖掘方法对双创用户提供专利主题聚类主题发现、主题关系分析、热点主题识别等专利挖掘服务功能,让双创用户更加方便地获取和利用高校图书馆专利挖掘服务。面向双创用户高校图书馆专利主题挖掘,以及相应的分析或应用服务需要涉及诸多事宜,涉及专利领域文献数据采集、专利文本语义化预处理、语义主题挖掘等技术处理过程,然后再基于语义挖掘的结果进行相应的应用和服务提供。在整个专利主题挖掘服务过程中,专利文献资源语义化、主题挖掘算法等是关键步骤,需要采用适当的方法和技术支持。另外,文本分词、统计分析、文本挖掘技术和本体建模技术为其提供了技术支撑。为了达到这个服务目标,本研究设计该服务模式的思路如下:首先,引入领域本体技术对专利文献资源进行语义标注,保留了专利语义文献中的语义关联,对领域本体建立“概念-概念”关联语义关系矩阵,然后将专利文献资源表示成基于概念的向量空间模型,参照“概念-概念”相关度矩阵计算专利文献资源之间的相似度,使用共现分析、聚类分析、时序分析等方法对专利主题进行聚类与挖掘,发现新聚类主题及热点主题,分析主题之间的关联关系。

6.4.2 专利主题挖掘服务模式总体框架

高校图书馆专利主题挖掘服务模式可以分为数据层、功能层与服务层三个层次,具体的服务模式如图3-19所示。

图3-19 高校图书馆专利主题挖掘服务模式框架

(1)数据层。数据层处于构建的专利主题挖掘服务模式的最底端,为专利主题挖掘提供高质量的数据支持和保障,涉及相关领域专利数据采集、预处理、本体语义特征提取、语义化标注等基本功能。底层分别存储了构建的专利领域语义元知识库及可以使用的专利主题挖掘文献资源库,语义元数据库是进行专利主题挖掘和服务提供的基础,向上提供相关数据调用和获取的接口。

专利主题挖掘与普通的专利文本挖掘的区别在于要深入到专利文本语义层面,因此,相关领域专利文本数据采集和预处理,首先需要对采集到的专利文本数据进行预处理工作。由于专利文本数据大部分为半结构化数据,需要借助自然语言处理技术对专利文本进行预处理工作,包括数据去噪、文本分词、词性标注、去除停用词等基本操作,专利文本分词以领域本体概念集作为参考词典,对于涉及的专业领域术语借助互联网构建术语词典进行识别和标注,实现领域专利内的专业词汇切分和处理。也包括借助领域本体对词语进行语义化标注,然后抽取其中的语义元数据,以RDF三元组形式编码后存放到语义元数据库中,形成语义元数据库为后续专利主题语义挖掘与分析提供高质量数据支撑。

(2)功能层。功能层处于构建的专利主题挖掘服务模式的中间层,主要是为专利主题挖掘提供数据处理方法和技术支撑。它运用专利挖掘系统和挖掘引擎完成专利主题挖掘特征提取、聚类分析、热点主题识别和发现等核心处理功能。

首先,基于领域本体的专利主题挖掘服务需要涉及很多方法,包括专利特征抽取方法、专利主题聚类方法、专利主题结果应用分析方法。专利主题结果应用分析方法又包括热点主题识别方法、主题关联相似度与强度计算方法、结果可视化展示等方法。由于很多领域专利文本结构的复杂性和包含较多的专业术语,专利文本分词、停用词过滤等文本预处理后,还需要采用特定的方法进行专利主题文本特征抽取,获取规范化的专利文本语料,构建概念-概念相似度矩阵,以提升专利文本主题挖掘的质量。基于领域本体的专利文本主题挖掘方法是通过结合相关领域专利文本的特征,采用聚类分析算法较好地抽取专利文本中的语义主题信息。本模式构建过程中主要是应用相关主题挖掘方法采用聚类分析挖掘算法,目的是将多个主题相似的专利对象集合分组成多个类或簇,从而获得这些专利文献资源中隐藏的专利知识或模式。其次,专利主题挖掘服务需要受到多种技术支撑。其技术支撑贯穿到整个专利挖掘服务过程中。本研究主要涉及的技术方法包括本体建模技术、信息检索技术、自然语言处理技术、统计分析技术、知识图谱可视化、文本挖掘与分析等技术。其中,文本挖掘与分析技术和本体建模技术是主要的核心技术。自然语言处理技术主要为非结构化专利文本采集和预处理、专利文本特征提取提供支撑。文本挖掘与分析技术主要为专利主题统计分析、聚类、热点主题识别等提供支撑。另外,本体建模技术贯穿于整个专利主题挖掘服务过程中,从最基础的数据层的专利文本资源语义化标注、专利知识概念-概念相似度矩阵构建,到专利主题挖掘与分析都有相关技术的应用。本体管理是整个高校图书馆专利主题挖掘服务模式的核心,为整个服务模式进行提供语义支持。该模块主要负责领域本体的构建、存储、维护和优化,也使得用户能够更加方便地构建及维护相关的专利领域本体库;实现对相关专利领域本体库的管理,并能够依据专利文本挖掘聚类算法发现新概念或新实例来实现专利领域本体框架的扩充。专利领域本体推理的作用是利用领域本体作为背景知识或先验知识对实现的专利主题聚类分析结果进行语义推理,去除冗余或无用的专利主题簇,将低等次模式进行泛化,获取高层次模式,并根据双创用户需求对相关的知识进行细化和泛化处理,增强专利主题挖掘聚类分析结果的有效性和适用性。

(3)服务层。服务层又可以被称为接口层和反馈层,是实现人机交互的功能层。高校图书馆专利主题挖掘服务的服务层为双创用户提供专利主题特征抽取服务、专利主题聚类服务、热点专利主题识别服务、相似专利主题推荐服务等基本的主题服务。通过运用可视化的工具显示相关领域专利主题的知识图谱及专利主题之间的关联关系,提高服务双创用户的效率和质量,并能够借助专利挖掘服务平台发现潜在的隐性和关联的专利主题知识内容,建立相关的主题索引和导航,从而提供关联专利主题索引和导航服务。同时,服务层也可以实现反馈功能,与双创用户之间进行沟通和交流,进一步地挖掘双创用户的专利主题挖掘需求,提高专利挖掘服务质量和效率。服务层也可以实现专利主题挖掘服务的评价功能,根据领域本体对获取的专利主题服务模式进行质量评价,若满足双创用户需求,则存储并利用知识图谱可视化的方法向用户展示挖掘结果,进而通过双创用户的评价和反馈,来调整和优化专利主题挖掘算法和计算性能。

6.5 双创环境下的高校图书馆关联专利知识发现服务模式

当相关领域专利数据积累到很多时,如何大量专利数据库快速找到专利之间的直接和潜在关联,为专利申请与研发、专利布局、相关专利推荐等提供数据支持,是专利挖掘服务的重要工作内容。关联专利知识发现服务是为了满足双创用户深层次的专利知识需求,增加专利知识服务的价值和外延,利用先进的技术手段主动从专利知识资源库中选择或挖掘合适的专利知识,而开展主动推送相关知识及知识之间关联的服务方式。关联专利知识发现与推荐服务与传统的专利挖掘服务不同,它推荐的不是具体的某款专利产品或信息,而是专利知识内容及知识之间的关联。依据关联专利知识发现与推荐服务的定义,本研究认为基于领域本体的高校图书馆关联专利知识发现服务就是高校图书馆运用构建的领域本体库,通过专利语义标注和描述将专利知识进行表达和存储到领域本体知识库中,从本体知识库的推理应用角度,针对相关领域专利关联知识进行推理,主动地挖掘专利知识单元之间关联关系和发现新的专利知识,然后运用推理结果给双创用户提供服务。

当然,基于领域本体的高校图书馆关联专利知识发现服务需要面向用户需求,基于用户的需求开展智能化的服务,也需要人工智能、数据挖掘、本体建模等先进技术手段和方法的支撑。只有及时获取、挖掘、整合和组织相关领域专利的知识和发现知识之间关联,才能充分发挥高校图书馆专利知识发现与推荐服务的价值和功能作用。其具有重要的实践意义和理论意义:一方面基于领域本体的高校图书馆关联专利知识发现结果能够提供知识发现与推荐服务,可以优化和改进双创环境下高校图书馆专利挖掘服务的功能和质量,改善双创用户的满意度和体验度。另一方面,其功能作用还体现在对于相关领域专利知识关联挖掘和发现,可以进一步地发现和创造新知识和关联,有利于知识创新和创造,提高专利知识的利用率和价值性。

传统的关联专利知识发现服务是运用共词分析和引文分析等方法开展,仅仅基于专利文本特征的表层,没有深入到内部的语义层面,很难为双创用户提供高质量的服务。鉴于此,本研究拟引入领域本体来语义化专利知识,运用数据挖掘方法开展关联专利挖掘服务。

6.5.1 关联专利知识发现服务模式设计思路

高校图书馆专利主题挖掘服务模式构建的目标就是在开展专利主题挖掘服务的过程中引入语义技术,将专利文本特征抽取的结果采用领域本体表示,并通过知识推理技术实现关联专利知识挖掘和检索服务。让双创用户可以方便地获取和利用高校图书馆专利挖掘服务。为达到这个目标,本研究设计如下的思路:①建立相关专利知识本体知识库的有效数据存储和获取机制,实现该领域专利知识的语义组织和进一步利用,为后续关联专利知识挖掘与发现提供数据和资源保障;②借助本体的结构化语义和知识推理规则,实现相关领域专利知识的细粒度揭示和潜在关系专利知识挖掘;③提供面向相关领域的专利知识发现与专利之间关联发现服务,进而提供专利知识发现服务、专利知识推荐服务、新专利知识识别服务等;④通过对相关领域专利知识挖掘和检索结果,通过采用知识图谱可视化等方式进行展现,可以便于双创用户的获取和利用,同时也可以运用知识之间关联建立索引,实现专利知识之间的跳转浏览和查询,允许双创用户进行延伸性专利搜寻和查找。

6.5.2 关联专利知识发现服务模式总体框架

高校图书馆专利主题挖掘服务模式可以分为数据层、功能层与服务层3个层次,具体的服务模式如图3-20所示。通过采集相关领域专利数据建立专利文献、领域专家信息、领域本体知识库等资源数据集,然后运用领域本体进行知识检索与推理,进行专利知识挖掘与发现,结合用户需求实现基于领域专利关联知识的知识发现与推荐服务功能。其中各个层的功能和作用如下:

(1)数据层。数据层处于服务模式的最低端,提供基础的数据保障和支持功能,主要是完成数据采集、预处理和语义化标注等功能,数据获取主要包括专利领域数据库、专利领域专家数据库和领域本体知识库等构建,其中领域本体知识库的构建过程也是由本层完成,向上提供相关数据调用和获取的接口。

关联专利知识发现服务也与传统的关联专利发现服务有一定的区别,也要深入到专利文本语义层面。因此,首先是相关领域专利文本数据采集和预处理,对采集到的专利文本数据进行预处理工作。由于专利文本数据大部分为半结构化数据,需要借助自然语言处理技术对专利文本进行预处理工作,包括数据去噪、文本分词、词性标注、去除停用词等基本操作。数据层通过运用领域本体模型中的概念,采取基于规则和机器学习相结合的方法识别和确定专利文本信息中的命名实体对象,并判定和确定这些命名实体对象的类型。然后,通过命名实体选取位置和上下文关系选取相应的候选事件集合,通过语法和语义的判断和筛选来最终确定符合相关领域的事件集合。最后,结合基于领域本体的关联关系模型抽取专利相关概念与概念之间的关联关系,并存储到领域本体知识库中,为后续的关联专利知识发现服务提供高质量的数据支撑。

另外,关联专利知识发现服务包括相关专利领域专家发现与推荐服务,所以,需要构建相关领域专家信息库,发现相关专利领域专家擅长领域和专业技能为后续领域专家发现与推荐服务提供数据基础和质量保障。

(2)功能层。功能层处于构建的关联专利知识发现服务模式的中间层,主要是为关联专利知识索引、关联知识发现、关联知识推荐等服务提供数据处理方法和技术支撑。它运用专利数据挖掘系统和挖掘引擎完成专利知识语义化特征提取、知识组织和分析、新专利知识识别和发现、专利领域专家识别等核心处理功能。基于领域本体的关联专利知识发现服务需要涉及很对方法,包括专利知识特征抽取方法、专利知识发现方法、专利新知识识别、关联专利知识相似度计算、知识检索与组织、社会网络分析、结果可视化展示等方法。本模式构建过程中主要是应用相互关联专利知识发现方法采用相应的知识检索和规则推理、知识推荐算法和社会网络分析方法,将相关的专利知识进行处理分析,发现专利知识内在的语义关联,从而获得新的专利知识或者关联模式。另外,关联专利知识发现服务也要受到多种技术的支撑,其中很多技术贯穿到整个关联专利知识发现服务过程中。本文主要涉及技术包括服务推荐技术、知识检索技术、自然语言处理技术、数据挖掘与分析、本体建模技术、社会网络分析等多种技术支撑。其中,文本挖掘与分析技术、本体建模技术、知识推荐算法是主要的核心技术。自然语言处理技术主要为非结构化专利文本采集和预处理、专利文本特征提取提供支撑。文本挖掘与分析技术主要为关联专利知识发现、识别和推荐等提供技术支撑。在该模块还有相关领域专家识别和推荐功能,依据相关领域专家的实体信息,运用社会网络分析方法对专利领域专家进行网络分析,识别核心的领域专家,并依据专家之间的关联关系或者专家与领域之间的相关性进行领域专家的推荐,为后续领域专家推荐服务提供基础。

另外,本体建模技术也贯穿于整个关联专利知识发现服务过程中,从最基础的基于领域本体的专利关联关系抽取构建领域专利知识库,再到基于领域本体的专利知识检索与推理等过程,无不涉及本体技术。专利领域本体推理的作用是利用领域本体作为背景知识或先验知识对实现的专利检索与分析结果进行语义推理,去除冗余或无用的专利知识,将低等次模式进行泛化,获取高层次模式及潜在专利知识实体之间的关联关系,并根据双创用户需求对相关的知识进行细化和泛化处理,增强关联专利知识发现与体检结果的有效性和适用性。

功能层还需要为后续的关联专利知识发现服务提供准备,设计相应的关联专利知识发现服务的功能和模式,为后续关联专利知识发现服务做技术和内容准备。诸如,为了提供关联专利知识推荐服务,该服务模式的功能模块就包括了知识推荐服务算法、服务体系和系统构建、知识关联关系计算、关联知识匹配等部分。关联知识推荐服务算法用于实现推荐知识发现和推送服务实现,为专利知识推荐服务提供技术支撑,保障推荐知识的准确性和高质量。

图3-20 高校图书馆关联专利知识发现服务模式

(3)服务层。服务层是高校图书馆与双创用户之间相互交流和服务对接测试层次。高校图书馆关联专利发现服务的服务层为双创用户提供关联专利知识索引服务、关联新知识发现服务、关联知识推荐服务、知识专家推荐服务等基本的主题服务。其功能模块主要包括关联专利知识发现知识内容可视化、知识服务反馈与评价、用户检索查询等。通过可以运用可视化的工具显示相关领域关联专利知识图谱及专利知识之间的关联关系,提高服务双创用户的效率和质量,并能借助关联专利挖掘服务平台发现潜在的隐性和关联的专利知识之间的联系,建立相关的专利知识索引和导航,从而提供关联专利知识索引和导航服务。同时,服务层也能够根据关联专家挖掘与分析结果,向双创用户提供相关的领域专家推荐服务,实现领域专家的快速识别和索引导航服务。另外,服务层也可以实现评价反馈功能,与双创用户之间进行沟通和交流,进一步地挖掘双创用户的关联专利知识发现需求,提高专利挖掘服务质量和效率。服务层也可以实现关联专利知识发现服务的评价功能,通过与双创用户需求进行匹配以及通过双创用户的评价和反馈,来调整和优化关联专利知识发现算法和计算性能。

6.6 双创环境下高校图书馆核心专利预测服务模式

专利尤其是核心专利所包含的知识或信息对于双创企业高竞争力可持续发展有着无可取代的重要战略价值。高校图书馆提供的核心专利的预测服务可以帮助双创企业围绕核心专利科学布局外围专利,巩固其核心竞争力,为双创企业尽早进行专利技术研发和布局提供参考依据。基于领域本体的高校图书馆核心专利预测服务就是高校图书馆在已有的专利资源库基础上,运用数据挖掘分析、时序分析和知识图谱可视化等方法识别出未来该领域专利发展趋势,挖掘出核心专利技术,从而为双创用户提供高质量的专利知识挖掘服务。传统的基于引文分析、词汇分析等专利预测分析方法存在一定的局限性,而且没能够从专利文献的语义层面进行核心专利前沿识别,难以反映核心专利的语义内涵,忽略了专利层面的语义理解。而且随着现有的语义技术的发展,有必要深入到专利文献的语义层面进行系统的语义分析,准确地识别其核心专利发展的前沿和趋势。鉴于此,本研究为了更好地为双创用户提供专利挖掘服务,促进双创用户高竞争力的持续发展,协助双创企业进行核心专利科学布局和技术研发,提出了双创环境下的高校图书馆核心专利预测服务模式。

6.6.1 核心专利预测服务模式设计思路

高校图书馆核心专利预测服务模式构建的目标就是在开展核心专利预测和预警服务的过程中,引入领域本体进行增强专利预测和预警结果的语义化解释和理解,从而使得提供的核心专利预测和预警服务更加精准化和科学化,让双创用户可以方便地获取和利用、理解高校图书馆核心专利挖掘服务模式。为达到该服务目标,本文设计如下的思路:①运用相关的数据采集与预处理工具,初步构建相关领域专利知识库,为后续核心专利识别和语义化理解提供数据保障。②采用核心专利识别算法来识别前沿的核心专利,分析潜在的专利风险,对专利知识内容进行进一步挖掘和分析。③借助本体的结构化语义和知识推理规则,对核心专利预测结果和预警结果进行语义化的解释和分析,进而提供核心专利识别服务、核心专利预测服务和核心专利预警等服务。④通过对相关领域核心专利识别和挖掘,以及基于领域本体的语义化解释,采用知识图谱可视化等方式进行展现,可以便于双创用户的获取和利用,提高高校图书馆核心专利挖掘服务的能力和效率。

6.6.2 核心专利预测服务模式总体框架

高校图书馆核心专利预测服务模式可以分为数据层、功能层与服务层三个层次,具体的服务模式如图3-21所示。通过采集相关领域专利数据建立专利文献、领域本体知识库等资源数据集,运用LAD 主题模型先来进行核心专利识别和预测。然后,利用领域本体进行知识检索与推理,深入到语义层面挖掘核心专利和分析其专利危机和预警。最后,结合用户需求实现基于领域本体的核心专利预测与预警服务功能。其中各个层的功能和作用如下:

图3-21 高校图书馆核心专利预测服务模式框架

(1)数据层。数据层处于该服务模式的最低端,提供基础的数据保障和支持功能,主要是完成数据采集、预处理等功能,数据获取主要包括专利领域数据库、专利网络资源数据库和领域本体知识库等构建,其中领域本体知识库的构建过程也是由本层完成,但是主要应用于功能层进行语义角色分析。

核心专利预测与预警服务与传统的情报服务机构提供的专利预测服务有一定的区别,需要深入到语义层面进行解释、分析核心专利预测和分析结果。因此,首先是相关领域专利文本数据采集和预处理,对采集到的专利文本数据进行预处理工作。由于专利文本数据大部分为半结构化数据,需要借助自然语言处理技术对专利文本进行预处理工作,包括数据去噪、文本分词、词性标注、去除停用词等基本操作,然后按照一定的数据格式进行存储,为后续的基于LDA和机器学习等方法识别和预测核心专利提供数据保障。同时,该数据层也需要完成领域本体知识库的构建为后续的语义角色标注提供数据支持。

(2)功能层。功能层处于构建的核心专利预测服务模式的中间层,主要是为核心专利预测、核心专利识别、核心专利预警等服务提供数据处理方法和技术支撑。它运用专利数据挖掘系统和挖掘引擎完成核心专利主题聚类、相似度和强度计算、核心专利机器学习和分析、核心专利预警指标构建等核心功能。功能层还需要为后续的核心专利预测与预警服务提供准备,设计相应的核心专利预测服务的功能和模式,为后续核心专利预测服务做技术和内容准备。

目前,核心专利预测方法有很多,其中LAD主题模型、支持向量机及其他的机器学习方法是最为常用的核心专利主题预测和识别方法。本研究主要采取了LDA主题模型、支持向量机及机器学习等三种方法进行核心专利预测和识别,同时,也涉及核心专利特征抽取、相似度计算和结果可视化展示等方法。在基于LDA主题模型的核心专利预测过程中,分为了主题抽取、核心专利识别和预测等过程,通过设置合理的LDA参数进行专利主题的聚类抽取,然后计算专利主题的强度和新颖度,从而确定核心专利结果,该部分提出基于专利主题强度和专利主题新颖度指标来进行核心专利预测,能够体现出核心专利的集中性和时效性两个重要的特征。在运用支持向量机的核心专利识别的过程中首先构建核心专利预测指标体系,通过运用支持向量机等机器学习方法来识别和预测核心专利。该服务模式功能构建过程中主要是应用相关核心专利预测和预警算法来进行完成。

另外,功能层还有一个重要的功能就是对核心专利预测和预警结果进行角色标注,从而从语义层面进行解释和说明。基于领域本体的语义角色分析是将专利中的术语映射到领域本体中的概念上,并分析概念的语义类型。本研究在引入领域本体后进行语义角色标注,将核心专利领域主题词项进行概念映射,将主题词袋转换为“概念词袋”,深入挖掘专利领域概念的语义类型。对核心专利领域的分析,从主题内容、语义类型、概率分布三个角度展开,使得核心专利预测和预警的分析结果更加丰富。基于本体的核心专利预测和预警结果语义分析过程中,经过本体映射后的概念在表达上更加规范,在语义上更加清晰,能够减少核心专利预测分析分析过程中的冗余信息。有效避免语义含义相同的核心专利主题词汇的重复统计问题,能够为大数据时代的核心专利探测提供支持和帮助。

(3)服务层。服务层是高校图书馆与双创用户之间相互交流和服务对接测层次。基于领域本体的高校图书馆核心专利预测服务的服务层为双创用户提供核心专利预测服务、核心专利识别服务、核心专利预警服务等基本服务方式。其功能模块主要包括核心专利预测语义化分析结果可视化、知识服务反馈与评价、用户需求提交与匹配等。通过可以运用知识图谱可视化的工具显示相关领域核心专利预测和预警结果,提高服务双创用户的效率和质量。另外,服务层也可以实现评价反馈功能,与双创用户之间进行沟通和交流,进一步挖掘双创用户的核心专利预测与预警需求,提高专利挖掘服务质量和效率。服务层也可以实现核心专利知识服务结果的评价功能,通过与双创用户需求进行匹配及通过双创用户的评价和反馈,来调整和优化核心专利预测和语义化解释方法和计算性能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈