首页 理论教育 实现抓取模式的关联数据应用体系结构及方法

实现抓取模式的关联数据应用体系结构及方法

时间:2023-11-26 理论教育 版权反馈
【摘要】:此种情况可能会导致高速缓存的广泛应用成为常态。实现抓取模式的关联数据应用体系结构。下面给出了这些模块所处理的任务的概述:数据网络访问访问网上的关联数据的基本手段是提取HTTP URIs成为RDF描述并通过遍历RDF链接发现更多数据源。此外,也可通过SPARQL端点访问、RDF数据转储、关联数据搜索引擎等方式发现相关数据。这种转换可以依靠词表维护者、数据提供者或第三方在网络上发布的词表链接来实现。

实现抓取模式的关联数据应用体系结构及方法

具体模式的选择依赖于关联数据应用的具体需求,模式因素决策过程需要考虑一个应用计划使用数据源的数量、该应用所需要的数据时新性程度、所需查询和用户交互的响应时间、应用之目的何种程度上需在运行时发现新数据源。

但是,由于动态链接遍历和联合查询中可能存在可扩展性问题。此种情况可能会导致高速缓存的广泛应用成为常态。它们以可接受的查询响应时间从应用可访问的大量数据源中生成数据,同时它们可通过链接遍历发现新数据源,从而充分利用数据网络的开放性优势。

实现抓取模式的关联数据应用体系结构。根据关联数据原则,所有数据都要在网络上发布,从而成为一个巨型全局视图的一部分。此逻辑图出现于关联数据Web层下部。实现抓取模式的应用,这些应用同时也依赖于其他模式,通常用于实现的数据访问、集成和存储层中所示模块的应用。下面给出了这些模块所处理的任务的概述:

(1)数据网络访问

访问网上的关联数据的基本手段是提取HTTP URIs成为RDF描述并通过遍历RDF链接发现更多数据源。此外,也可通过SPARQL端点访问、RDF数据转储、关联数据搜索引擎等方式发现相关数据。

(2)词表映射

不同的关联数据源可以使用不同的DF词汇以表示相同信息类型。为了理解尽可能多的Web数据,关联数据应用从不同词表将术语翻译成一个单一目标图式。这种转换可以依靠词表维护者、数据提供者或第三方在网络上发布的词表链接来实现。因此,当关联数据应用发现数据以其所未知的术语表示时,它可在网上搜索映射并通过所发现的映射将该数据转换为当地图式。

(3)身份识别(www.xing528.com)

不同的链接数据源使用不同的URIs标识同一个实体,比如,一个人或一个地方。数据源可以提供owl:sameAs链接指向其他数据源提供的真实世界中的同一个实体。在数据源不提供此种链接的情况下,关联数据应用可以通过身份识别的启发式,以发现更多的链接。

(4)起源追踪

关联数据的应用依赖于开放数据源集合的数据。为了更有效地处理数据,它们常常在本地缓存数据。对于被缓存数据而言,为了能评估数据质量以及在需要时返回到原始来源,跟踪数据的出处至关重要。

(5)数据质量评估

由于网络的开放性,任何Web数据都需要用怀疑的眼光来对待,关联数据的应用需注意将Web数据当作不同来源的声明而非事实加以对待。如果关联数据应用从一个相对较小的已知来源集合进行数据整合,那么数据质量问题可能还不会太相关。然而,当应用软件从开放的Web进行数据集成时,就应当采用数据质量评估方法,以确定哪些声明可接受以及哪些要求不可信,应拒绝。

(6)使用应用程序上下文中的数据

应用已对Web数据进行了集成和清洗,使之符合更复杂处理所需。在最简单的情况下,这样的处理可能涉及以各种形式向用户显示数据(表格,图形,以及其他交互可视化方式等)。更复杂的应用可能设计聚集、挖掘数据,为了使隐式关系明示化,还可以采用逻辑推理等方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈