首页 理论教育 高校图书馆创新实践:语义数据转换

高校图书馆创新实践:语义数据转换

时间:2023-11-05 理论教育 版权反馈
【摘要】:图11-3方志本体关系图语义数据层的数据处理和转换是承接本体结构和上层应用的关键。将关系型数据转换为RDF数据模型,具有三方面优势。数据转换为RDF格式是发布为关联数据的基础,之后可进一步与公开发布的LOD建立联系,吸收外界数据资源的同时补充网络世界的关联数据云。D2RQ是将关系型数据库中的数据快速发布为关联数据的工具。利用Open Link的Virtuoso数据库存储RDF文件,分别以不同的图名称命名并发布。

高校图书馆创新实践:语义数据转换

知识图谱本质上是一种揭示实体之间关系的语义网络。语义是关于意义的科学,语义技术提供了机器可理解的数据描述、程序和基础模型,整合了人工智能、自然语言处理、信息抽取、数据库技术等技术方法,使计算机精准地支持处理、整合结构化、半结构化和非结构化信息。核心语义技术包括语义标注、知识抽取、检索、建模、推理等,可以分为数据级的语义和元数据级的语义。语义网络的思想就是利用元数据或本体语言对Web上的信息资源的内容进行语义上的描述,从而使计算机能够利用这些语义信息对信息资源的内容进行理解和处理,并在此基础上,实现更高级的、基于知识的智能应用。基于本体的资源语义化聚合能够充分利用本体的概念层次结构和对逻辑推理进行支持的特点,解决信息对象的语义异构问题,实现语义扩展,为知识的表示、共享和重用提供了技术支持,能迅速而准确地提供全面、系统、有针对性的知识信息,深入揭示数据对象之间的信息关联、内容关联,帮助用户实现知识发现[7]。

图11-3 方志本体关系图

语义数据层的数据处理和转换是承接本体结构和上层应用的关键。利用关联数据技术能够实现知识图谱异构数据源的语义化集成。关联数据在语义网中使用统一标识符(Uniform Resource Identifier,URI)和RDF发布结构化数据,是构建数据间链接的最佳实践方式。URI是用于标识Web上可用资源的包含特定语法和相关协议的通用资源标识符,允许用户对任何(包括本地和互联网)资源通过特定的协议进行交互操作。RDF是W3C推荐的数据抽象模型和数据编码格式。RDF标准规范体系包括以“主体—谓词—客体”组成的三元组为最小单位的RDF抽象数据模型。将关系型数据转换为RDF数据模型,具有三方面优势。

(1)在数据层面,以RDF三元组格式存储的数据彼此之间相对独立,因此相比关系型数据受数据存储结构逻辑的制约较小,尤其能够适应异构数据源的整合。(www.xing528.com)

(2)在应用层面,RDF三元组数据作为图结构数据,支持基于图的SPARQL检索,可以实现较SQL检索更复杂的关系和知识发现,以及进一步的知识应用。

(3)数据转换为RDF格式是发布为关联数据的基础,之后可进一步与公开发布的LOD(Linked Open Data)建立联系,吸收外界数据资源的同时补充网络世界的关联数据云。

将关系型数据转换为RDF数据的过程即RDB2RDF过程。简单来说,可以将其看作一个表格结构向三元组结构的映射,借助于D2RQ工具即可实现RDF数据的构建。D2RQ是将关系型数据库中的数据快速发布为关联数据的工具。D2RQ平台由D2R Server、D2RQ Mapping Language、D2RQ Engine三部分组成,其中D2R Server是关联数据视图的HTTP服务器,用于对关联数据的访问和SPARQL查询;D2RQ Mapping Language是用于描述本体和关系数据模型之间关系的映射语言;D2RQ Engine的主要功能是根据可定制的D2RQ Mapping Language将关系数据库中的数据映射成为动态虚拟的RDF三元组。同样以方志数据为例,在基本映射结构的基础上,通过映射文件对RDF的定义和格式做出规范,如图10-3所示。以实体在数据库中的ID作为唯一标识定义实体URI,格式为“http://{ip}:{port}/resource/{classname}/{id}”;设置本研究中定义的本体或关系URI前缀为“@prefixkv:http://www.kvlab.org/resource/”;取实体名称(如作品、地名)中、英文作为RDF文件中的实体标签(rdfs:label)。利用Open Link的Virtuoso数据库存储RDF文件,分别以不同的图名称命名并发布。用户可通过SPARQL端口实现对数据的检索。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈