首页 理论教育 南亚国家网络信息检索导论:互联网应用与智能检索发展

南亚国家网络信息检索导论:互联网应用与智能检索发展

时间:2023-08-08 理论教育 版权反馈
【摘要】:互联网的广泛应用和发展,使世界范围内的信息资源交流、共享成为可能,同时也对传统的信息组织、检索和获取方法形成了很大冲击。近年来,互联网上不断涌现的人工智能产品,如智能搜索引擎、智能浏览器、智能代理等,将提高网络信息检索的智能化程度,促进智能信息检索的发展。

南亚国家网络信息检索导论:互联网应用与智能检索发展

互联网的广泛应用和发展,使世界范围内的信息资源交流、共享成为可能,同时也对传统的信息组织、检索和获取方法形成了很大冲击。一方面,互联网为人们提供了一个更为广阔的信息检索空间;而另一方面,网络信息资源的发展特点就在于无限、无序、优劣混杂、缺乏统一的组织与控制。用户首先面对的是大量纷繁复杂的信息、数据,明显感觉到的是由信息过载(Information Overloaded)引发的困惑和茫然。在网络世界这个浩瀚、混乱的信息海洋中,准确、及时、有效地获取与自身信息需求相关或适用的信息资源,对所有互联网用户来说都是十分重要的,同时也具有一定的挑战性。

网络信息资源检索不仅代表着在网络环境下发展起来的一种新型检索模式,而且将发展成为信息检索领域一个重要的学科分支。

(一)网络信息资源检索模式

常见的网络信息资源检索模式有如下几种:

1.漫游模式

漫游时偶然发现是网络信息资源检索最原始的方法,即在日常的网络阅读、漫游过程中,意外发现一些适用的信息资源。这种方式的目的性不是很强,具有不可预见性和偶然性。

漫游时顺“链”而行,指用户在阅读超文本文档时,利用文档中的链接从一个网页转向另一相关网页。此方法类似于传统手工检索中的“追溯检索”,即根据文献后所附的参考文献追溯查找相关的文献,从而不断扩大检索范围。这种方法可能在较短的时间内检索出大量相关信息,也可能偏离检索目标而一无所获。在使用漫游法检索信息时,应及时地把检索到的相关的站点和网页存入浏览器的收藏夹中,以备今后查询时使用。

2.直接模式

直接模式是直接在浏览器的地址栏中输入网址进行浏览查找的方法。此模式适合于经常上网漫游的用户,其优点是节约时间、节省费用、目的性强,缺点是信息量少。采用直接模式进行检索的用户还需注意平时多收集相关站点的网址。

3.搜索引擎模式

索引擎模式是最为常规普遍的网络信息检索模式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,用户提出检索需求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。搜索引擎一般支持布尔检索、词组检索、截词检索、字段检索等功能。利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取最新信息资源;其缺点是由于采用计算机软件自动进行信息加工、处理,且检索软件的智能性不是很高,造成检索的准确性不是很理想,与用户的检索需求及对检索效率的期望有一定差距。

为提高使用搜索引擎的效率,下面介绍几种搜索技巧:

(1)布尔逻辑检索

布尔逻辑检索,就是将多个关键词之间按照一定的逻辑运算关系组合在一起形成的组合检索。常用的运算符有:逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT),即同时满足、满足任一方、不满足所要搜索的关键词,或使用括号将检索词分别组合等,有助于使检索结果更加精确。如:检索环境治理方面的信息,可输入“环境AND治理”进行检索;检索有关旅行包或行李包的信息,可输入“旅行包OR行李包”进行检索;检索有关植物但不包括花卉的信息,可输入“植物NOT花卉”进行检索。

(2)加/减号检索

加/减号检索即在关键词前输入“+”或“-”,其作用相当于布尔逻辑运算符中的“与”和“非”。用“+”表示检索内容必须包括该关键词,而用“-”表示排除该关键词所包含的内容。例如“中国美食+烤鸭”的关键词组合,表示搜索的是中国美食与烤鸭,结果一定出现烤鸭;当输入“中国美食-烤鸭”的关键词的组合,表示搜索中国美食但不包括烤鸭。

(3)限定词检索

对检索结果的范围限定大体可分为:文档类型限定、分类限定、地域限定、域名限定等。常用的如:输入“检索词filetype:文档类型(.doc、.ppt、.pdf、.swf等)”,就能检索到文档、图片、视频或动画等想要的不同文档类型结果;输入“intitle:检索词”可只搜索网页标题含有该关键词的页面;输入“检索词site:网站”进行网站限定,表示只在指定的网站中查找该资源。

(4)词组检索

词组检索是用双引号将一个词组或短语作为一个独立单元进行严格匹配,使搜索结果绝对符合检索要求,是精确检索的一种方法,对现有主要搜索引擎都适用。

(5)利用网页快照功能

由于“网页快照”存储于搜索引擎服务器中,所以查看网页快照的速度通常比直接访问网页要快。网页快照中,输入搜索的关键词用亮色显示,用户点击呈现亮色的关键词可以直接找到关键词出现的位置,便于快速找到所需信息。当搜索的网页被删除或连接失效时,也可以使用网页快照来查看这个网页的原始内容。

具体应用如百度快照。打开百度官方网站(www.baidu.com),输入需要查找的关键词,比如说视频网站。可以看到在红色方框表中的区域有“百度快照”的字样,如图2-1。鼠标单击百度快照就能打开浏览网页,而不会再受死链接或网络堵塞的影响。

图2-1 百度快照应用实例

4.未来检索模式

(1)智能化信息检索

智能化信息检索是基于自然语言处理的检索形式。检索工具是对用户提供的以自然语言表达的检索要求进行分析,从而形成检索策略进行检索。检索工具智能化的内涵在于检索工具具有学习、分析、辨别和推理的能力。(www.xing528.com)

近年来,互联网上不断涌现的人工智能产品,如智能搜索引擎、智能浏览器、智能代理等,将提高网络信息检索的智能化程度,促进智能信息检索的发展。网络中的智能代理通常是一个专家系统、一个过程、一个模块或一个求解单元。智能代理可以获得用户的信息需求,自动检索信息和推送检索结果信息。多智能代理系统还具有信息发现、信息筛选、信息推送和信息导航功能,可满足专业研究人员的特定需求,实现网络信息检索与服务的智能化。

(2)可视化信息检索

可视化指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。据统计,人们获取信息有70%—80%靠视觉,20%靠听觉,10%靠触觉。用图像取代文字帮助人们检索的优点在于:图像的表达更生动、形象、准确,效率更高,具有交互性、多维性、可视性等特点,可以大大加快检索速度,使实时产生的海量数据得到有效利用。

(3)知识化信息检索

信息检索过程,就是把用户请求与索引库匹配,寻找与请求关联的网页并返回排序的命中信息的过程。运用截词、词位限定、布尔逻辑运算等技术可以控制用户请求与数据库匹配的精度,但是信息检索难以避免丢失相关信息或产生大量冗余信息,即出现信息漏检与误检。信息检索效率是衡量信息检索效果的重要指标,是检验信息检索技术成熟与否的标准。知识是信息加工有序化的产物,是高浓度的有序化信息,知识检索必然是高层次的信息检索。

知识发现技术也称数据挖掘技术,包括数据库技术、统计技术、机器学习、模式识别技术以及信息检索技术。知识处理系统以人工神经网络、传播激活模型、联想网络及并行分布处理等处理方法进行自我处理,通过大量的处理节点及其相互联系之间的交互达到一种智能行为;知识学习系统从样本中自动学习,最常用的知识学习算法有归纳学习算法、多层前向反馈神经网络和遗传算法等。知识发现技术的信息检索,模拟人的思维行为模式,认知信息概念、潜在信息及相关成分;同时,以知识为单元,可以使检索结果深入到知识单元,提高信息检索的有效性。

(4)多媒体信息检索

多媒体信息是文本、图像、音频和视频的混合体,多媒体信息检索技术是信息检索研究的热点

MPEG-7专家组正在制定多媒体内容描述标准,内容包括摘要、查询、索引、检索、浏览、过滤等技术。MPEG-7(“多媒体内容描述接口”,Multimedia Content Description Interface)标准由描述符(D,Descriptors)、描述方案(DS,Description Schemes)、描述定义语言(DDL,Description Definition Language)以及系统工具等四个部分构成;通过MPEG-7所定义的D、DS和DDL,可以对各种形式存储的多媒体内容进行结构化的描述,对多媒体信息的这种描述使用户在信息资源检索的过程中具有更加灵活的资源过滤方式。

多媒体信息检索技术的关键是图像、音频和视频检索技术。信息特征是联系信息标引与信息检索的唯一桥梁,图像、音频与视频信息的检索也是以其自身的形式与内容特征描述为基础。图像信息包括描述对象的主题,颜色、纹理、形状、轮廓等视觉概念;音频信息包含音频、音调、响度、频宽、音色和节奏等;视频信息则是指对象的镜头、场景及视场的运动等。

基于内容的多媒体信息检索技术的基理:a.计算机自动抽取多媒体信息特征,编制多媒体信息特征倒排文档索引数据库;b.从用户接口获得多媒体信息检索标识,诸如输入草图、轮廓图、音频、镜头或从检索库中调用的相似多媒体信息;c.计算机理解用户多媒体信息查询请求标识(查询样本)并与索引数据库中的对象进行相似度匹配;d.排序与输出多媒体信息检索结果。

(二)网络信息资源检索典型代表

网络信息资源检索的典型代表有很多,其中最为著名的是Google(谷歌),谷歌网络覆盖全世界大多数国家,当然也包括南亚大部分国家。下面简单介绍一下谷歌公司及其在网络信息资源检索方面的应用。

谷歌是一家美国的跨国科技企业,致力于互联网搜索、云计算、广告技术等领域,开发并提供大量基于互联网的产品与服务。Google由当时在斯坦福大学攻读理工博士的拉里·佩奇和谢尔盖·布卢姆共同创建。

Google搜索引擎主要的搜索服务有:网页、图片、音乐、视频、地图、新闻、问答等。其他的检索应用还包括:

1.Google Web API

Google Web API(网络应用程序接口或网络服务)是谷歌公司为开发者提供的公共接口。使用Simple Object Access Protocol(SOAP,简单对象访问协议),程序员可以依据Google搜索结果开发搜索服务和进行数据挖掘。同样的,网虫们也可以访问页面缓存然后对页面提出建议。

2.Google Book Search

2004年8月,谷歌公司开始提供一项名为Google Print的新服务,2005年11月17日更名为Google Book Search。该工具可以在搜索页面提供由内容出版商提供的书本内容的搜索结果,并提供购买该图书的网页链接以及相关广告。

3.Google Desktop Search

2004年谷歌公司推出本地资源搜索工具Google Desktop Search,需要安装一个不到2M的程序在硬盘,便可通过电脑桌面搜索本地硬盘里的文档。这个工具主要通过关键词方式搜索安装了该软件的计算机硬盘上的MS Office和TXT文档。

4.Google网页目录

Google网页目录先由全球各地的义务编辑人员精心挑选,再经由谷歌著名的PageRank(网页级别)进行技术分析,让网页依照其重要性大小进行排列,是一个包括了世界多种语言网页的翔实目录集。当用户搜索范围涵盖太广时,可使用网页目录缩小范围。例如查看“中文/新闻/杂志”分类子目录,则可知道有哪些中文杂志有网页,网页目录可略去类似但无关的网页。

5.Google Scholar

2004年11月,谷歌公司发布学术文献资源搜索引擎“Google Scholar”(谷歌学术搜索)。搜索结果根据“相关性”排列,这与Google网站使用的PageRank非常类似。2006年1月11日,谷歌公司宣布将谷歌学术搜索扩展至中文学术文献领域。

6.Google Video

2005年1月25日,谷歌公司推出Google Video服务。该服务可以通过Google网站搜索网络上的各种视频文件或播出的电视节目。Google Video根据关键词提供相关的视频内容的浏览或下载服务,还可提供视频内容的预览画面。在电视节目搜索方面,仅能搜索美国播出的电视节目。在收购视频网站YouTube后,谷歌公司将Google Video资源整合到了YouTube网站。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈