过去的十年里,搜索引擎从使用经典的信息检索方法发展到从分析网络图表来推断相关联系的信息检索方法 (Arasu等,2001)。通过结合从网络资源推断来的地理知识来改进搜索系统的性能,进而找到一种自动方法来将地理范围和这些资源联系起来,这个问题的研究获得了持续的关注 (Amitay等,2004; Ding和Gravano,2000; Jones 等,2002;Naaman等,2004),基于地理背景的信息获取系统已经开始出现,例如学术界欧盟的SPIRIT (Bucher等,2005; Jones等,2002; Vaid等,2005) 或商业系统中的Mirago、Ya-hoo和Google等。
根据地理范围和地理位置进行网页自动分类需要考虑各种不同的可利用的线索,目前主要用的方法包括自然语言处理 (Manning 和 Schutze,1999) 和统计学的变量方法、网络采集、图表分析方法 (Chakrabarti等,2000) 以及网络信息提取方法 (Grishman, 1997)。
本体概念起源于哲学领域,在信息技术领域,本体通常被认为是“概念的规范化”。SWEET采用本体网络语言 (Ontology Web Language,OWL) 进行本体建模,范围涉及地球系统科学及相关领域的几千个术语 (如NASA的全球变化主目录GCMD、地球系统建模语言ESML、地球系统建模框架ESMF所包含的术语),它提供了地球系统科学高层次的语义描述; 地理信息元数据本体项目遵循ISO19115和FGDC的元数据标准,对数据提供者、观测仪器、传感器和数据体本身及之间的联系增加了语义描述信息,便于对数据集的统一理解; 基于语义网的地学知识发现,在NASA的日地观测系统中面向所研究的专题发展了地球空间数据挖掘本体。
在空间数据挖掘领域,目前较有影响的工具基本上都是桌面系统,例如 Geo Miner。随着分布式数据知识提取需求的增长,目前基于局域网或因特网的分布式空间数据挖掘需求越来越强烈。SPIN是欧盟资助的基于因特网的空间数据挖掘系统,它把目前的地理信息系统与数据挖掘技术整合在一起形成一个松耦合、开放式和可扩展的空间数据挖掘系统。(www.xing528.com)
目前,空间数据搜索还主要采用地理范围或地名数据库匹配的方式,还没有采用到数据挖掘技术,并且只对连接中的网页页面内容敏感,对连接中的空间信息服务及其能力内容不敏感。例如,Google目前展示了一款在美国境内使用地名匹配技术获得相应区域的Google地图。
信息检索技术的发展分为三个层次,即语形、语义和语用搜索。语形搜索是用户需求在语言层面上表达的意思,如传统的关键字搜索; 语义搜索是通过本体论,在元数据结构层面上,解决对“模拟”语言的编码解码问题,同时通过分词技术和语料库积累,解决关键字与文本的匹配问题; 语用搜索是指用户表达意义的上下文环境,这是第三代搜索引擎的理念,智能化、个性化都建立在这个基础之上。其中前者比较成熟,后两者需要结合行业特点和用户需求,目前还处于实验探索阶段。语形搜索,例如雅虎、微软的搜索,不必要地扩大了搜索范围,出现过多无用信息的情况,增加了决策成本。语义搜索主流的实现方法是利用本体技术,描述空间信息的语义,代表性的项目有SPIRIT等。语用搜索是个性化定制搜索引擎,一旦实现了语用级搜索,就可以实现一对一信息发布和一对一信息定制,例如雅虎、Google都在积极努力地进化到这个阶段。
如何提高服务搜索的精度和效率,是传感器数据源访问急需解决的问题之一。目前高精度传感器观测数据及服务搜索引擎的趋势是从“语法”发展为“语义”搜索; 从“单服务器”发展为“分布式”搜索。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。