关联数据、知识表示的具体应用中会不可避免地涉及可布局平台的开发和应用。欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器,LarKC被设计为一个大规模分布式不完备推理平台,该平台用于突破语义万维网(Semantic Web)推理系统目前面临的知识处理规模瓶颈[35]。关联数据处理平台主要由转换、选择、相关性检索、推理、判定等模块组成。关联数据处理平台工作于LOD数据层之上,通过插件的形式,建立工作流,对关联数据进行判定、识别、选择及转换,该架构既可以在单机上部署,亦可以在云计算基础设施上搭建,具有良好的可伸缩性。
由于关联数据和知识表示的语义应用作为一种新技术,不应给使用者带来新的门槛,而查询所返回的SPARQL数据的解读需要在界面上精心布局,以满足可视化知识表示的要求,因此,在程序开发过程中,大多数时间都耗费在了界面设计及编程上。由于基于关联政府数据的智慧系统需要大量的图形处理,在许多具体应用中还需借助卫星图、三维图、路线图等服务的API实现与用户间的交互操作,这些知识表示手段需要编程人员熟练掌握新的地理信息可视化技术。
LarKC系统中的语义数据存储是在其他系统的基础上实现的。由于本体需要满足无争议、可共享、可被完全接受等特性。这意味着并非所有以RDF格式表示的数据都可以成为本体。关联数据并非真正的www链接,它是语义唯一标识,这种语义唯一标识跨越语言差异、科研领域、应用范畴等障碍。通过LOD等语义数据云图等形式免费供人们使用。例如,可以依照关联数据的发布原则,在自己的域名中,以RDF形式发布自己的概念,而这些数据在实际的访问过程中不一定存在。在语义研究领域,部分学者认为,无二义即有意义,因而对于实体、关系等的唯一标识是本体的基本策略。尽管从严格意义上说,RDF数据未达到本体的要求,但所有的RDF数据均可推理,从而为关联数据和知识表示的语义标注等应用提供了语义资源。语义数据包括本体和关联数据,而本体是一个特定领域里无争议的部分,是最易被接受的稳定知识。“知识”与“相信”之间并无等价关系,知识具有个性化特征。某些具有较大争议的数据,同样可以作为关联数据使用,但这样的关联数据的质量需要领域专家进一步把关,也需要在实践应用中根据使用者的评价进行调整。(www.xing528.com)
当前,部分研究者将语义处理平台部署于Hadoop等架构之上,希望利用MapReduce等技术,以分布式的形式降低海量语义数据处理的时间开销[36]。有的研究者选择用关系数据库等方法来存储RDF数据,这些都是可供选择的解决方案,LarkC平台并未采用这些技术,而是依然通过非数据库的形式存储、管理RDF数据,而应对亿元组级别的推理和查询等操作依然适用。原因在于,推理中的相关性判断和检索是难以穷尽的,具体的应用可以根据不同的时间要求,调整自己的策略。刚开始时,以较短的响应时间返回最相关的大多数数据,在性能、时间Tradeoff曲线逐渐趋于平缓时可考虑在后台执行或等待系统空闲时运行。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。