目前,数字图书馆的研究和搜索引擎的研究与实际应用中有许多相互交叉的地方,两者概念的界定也比较模糊,比如2004年12月14日,Google携手纽约公共图书馆和哈佛大学、斯坦福大学、密歇根大学、牛津大学图书馆共同启动了一个数字图书馆计划(Google Digital Library Project)[18]。同时,许多数字图书馆考虑发展基于智能搜索引擎的数字化信息检索系统,数字图书馆和搜索引擎都有垂直化、专业化的发展趋势。那么数字图书馆和搜索引擎相比,究竟存在哪些不同之处或者不同的优势?对这个问题的研究有利于认识两个概念之间的关系,从而找到各自的发展方向。
Google是目前经营得最成功、技术最先进的搜索引擎,这里以Google为代表分析搜索引擎的特征。Google最初作为斯坦福大学数字图书馆的一个小项目,主要目的是要解决大量的异构信息检索问题。显然,Google通过自己独特的方式逐步解决了这个问题。现在,Google本身就是一个庞大的数字图书馆,在各方面的优势都是非常显而易见的。
Google最大的优势就在于其丰富的资源,除了海量的网页数据外,Google还扫描索引了牛津、哈佛、斯坦福和密歇根等大学以及多个公共图书馆的数百万册图书,并能实现全文检索功能,众多的数据库厂商也都向Google提供元数据或者Open URL数据接口。除此之外,Google还通过Library Link直接链接了大量的图书馆书目等各类资源。
Google的第二个优势就是服务质量高,有着良好的用户体验。目前,数字图书馆中经常出现因并发用户数过多而不能访问的问题,而不同数据库又有着形式各异的复杂检索语法,诸如此类的问题都给读者带来了很大不便。而与之形成鲜明对比的是Google向来以简洁著称的检索界面和检索方式,面对每天数亿次的检索请求,很少有让人难以忍受的延迟。
此外,Google在资金、人才、技术等很多方面和一般的数字图书馆建设单位相比都有着绝对的优势。无论在媒体的宣传中,还是在广大网民的心目中,“不作恶”的Google在技术和企业形象上几乎都是完美的,但透过这些耀眼的光环,我们依然可以发现其一些明显的不足之处。
首先,最明显的就是搜索引擎的检索质量还远非所宣传的那样准确、智能。很多时候,随便一个搜索请求就有几万条搜索结果,有用的信息往往夹杂在大量的无关信息之中。网页资源尚且如此,如果糅合进更多类型的数字化信息等资源,这种“信息稀释”效应就会更加严重。造成这种搜索结果准确率低下的一个重要原因就是目前的网页没有像图书馆那种对数字化资源进行严格的元数据索引工作,在执行检索时数字图书馆的各类资源可以通过主题、作者等不同字段及其组合进行各种检索,而搜索引擎却只能提供全文检索,其检索效果也就可想而知了。至于Page Rank等技术也只能是稍稍提高检索准确率而已,下一代的语义网络技术也期望能构建可以进行元数据索引的新型网页,但这种技术已经出现了多年,却一直没有具体实现。
其次,目前的搜索引擎技术体系事实上已经很难再容纳急剧增长的网络信息。由于整个互联网是一个大规模动态的分布式系统,网页更新和增加非常频繁,而一般的搜索引擎都是设置一个或多个大的数据中心,在此执行全部的网页下载和索引工作,这就造成集中式体系结构的搜索引擎很难跟踪Internet的每一处的变化,根本无法保证覆盖率和更新率的要求。几乎所有的搜索引擎的数据平均更新周期都达到一个月以上,而没有一个搜索引擎可以索引超过一半的互联网全部网页。就连Google的CEO Eric Schmidt都不得不承认,以Google的技术要索引目前所有的信息资源,至少要300年。(www.xing528.com)
最后,Google等搜索引擎本身还有一些技术之外的缺陷。如果说任何技术问题都可以靠不断创新来解决的话,这些技术之外的问题可能是目前搜索引擎根本就无法解决的两难问题。表现为:第一,目前的搜索引擎都是需要盈利的企业而不是公益事业单位,它们多靠不太令人满意的在搜索中插入广告来赚钱,如国内的百度搜索引擎就被戏称为广告搜索器。如果这些尚且可以忍受的话,那么在一些学术信息中再加入广告就显得有些不伦不类,盈利压力和用户权益两者几乎成了所有商业搜索引擎不可调和的矛盾。第二,从技术发展的角度来看,目前基础性的网络技术,从TCP/IP到E-mail等都是完全开放式的技术,而更好的商业服务则建立在这些开放技术之上,这正是互联网络能够长期快速发展的一个基本因素。但目前的Google等搜索引擎的各类排序技术等都是公司的高度机密,而其各类数据更是连美国政府都难以得到,这种完全封闭的发展道路显然是有违网络技术发展潮流的。如果说8年前的Google是搜索引擎技术创新的最大源头,那么目前的Google正在不知不觉中变成搜索技术发展的障碍。
搜索引擎和数字图书馆都是提供信息检索和服务的,其发展的目标基本类似,这就决定了两者的竞争在一定范围内是不可避免的。就目前而言,数字图书馆的建设还处于初期探索时期,暂时处于一种弱势地位,大多数普通用户查询信息资料基本都首选搜索引擎,而不是求助于数字图书馆。即使在高校中,很多对信息检索质量要求不高的用户,如大部分学生在查资料时也都是首选网络搜索引擎,一些学生连全文的网络数据库、电子资源有哪些都不太清楚。面对Google的强势竞争,数字图书馆在资金、人才、服务和系统的成熟度上还有明显的不足,但建立在各种数字化馆藏共享基础之上的数字图书馆也有自己的优势。
第一,数字图书馆提供的多是有针对性的信息服务,如目前许多参与数字图书馆建设的高校图书馆都是根据自己学校的特点订购相应的数据库,开发建设各类特色数据库,提供个性化的信息服务,而Google提供的却是面向全球用户的通用搜索服务。和Google提供的千人一面的检索结果相比,数字图书馆完全可以利用其直接面对特定用户的优势,根据用户的类型、专业等信息提供个性化的信息检索、电子期刊订阅等服务,增加服务的粘性。
第二,数字图书馆各成员之间的独特资源共享方式。正是为了弥补单个图书馆资源数量方面的不足,各层次、各区域的数字图书馆项目开展得如火如荼。这样的数字图书馆系统一般都采用了分布式的体系结构,各个参建馆都相当于一个完整的资源集合,向系统的中心结点提供统一格式的共享数据。这类中心结点一般存储的都是通过OAI协议上载的元数据,或者是通过ZING技术提交数据接口,而数据本身仍保存在各个参建馆内。因此这样的分布式系统可以比Google的集中式结构容纳更多的信息资源。在数据更新等方面,分布式结构具有更多的优势。
第三,数字图书馆不是以盈利为唯一目的的系统,不是像Google那样的企业。虽然Google等搜索引擎暂时充当着网络资源控制者的角色,但这种绝对的控制权加上盈利的压力让人们很难相信Google能“Don't be evil”,各种版权纠纷以及排序不公正的投诉已经说明Google很难真正胜任这种“管理者”的角色。尽管目前对于互联网信息究竟由谁来管理仍有很大的争议,但一个基本共识就是作为公共设施的互联网理应由一个非盈利的机构或组织来管理。几千年来图书馆作为一个公共机构一直担负着管理社会信息知识的职责,在网络信息时代,数字图书馆完全有能力、有优势以一种全新的形式去继续这种使命。
由此可知,搜索引擎和数字图书馆在研究内容上有交叉,在实际应用上有竞争,但这两个概念仍然是不一样的,搜索引擎的重点是Internet网络信息资源检索,其他方面的研究只是辅助性的,而且搜索引擎是商业性的,必须以盈利为目的;而数字图书馆是一个复杂的系统,大多数人都认为,数字图书馆是一种支持知识的生产、传播与创新的工具,其存在的根本目的在于支持并促进社会知识的协同演化,而且受日趋多元化、多样化、复杂化的社会信息环境驱动,为了应付不断变化的信息活动、用户需求和竞争市场的挑战,当前数字图书馆正经历一个从“以信息资源为中心”到“以用户的知识效用为核心”的转变过程。因此,由于数字图书馆的定位更加宏观,随着人们知识活动中不断变化的需要而变化,数字图书馆的理论和实践要比搜索引擎的研究范围广泛得多。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。