2.2.1 美国数字图书馆技术研究进展
1.IBM-DB2数字图书馆[12,26]
(1)信息的创建与捕获技术
IBM-DB2数字图书馆获取数字信息的途径有两种:一是IBM及其合作伙伴将用户现存信息资源建设工具统一接入数字图书馆;二是将用户的信息资源直接导入数字图书馆,生成的新数字信息可由IBM数字图书馆进行管理。IBM数字图书馆支持一系列工业标准扫描器,并具有识别和输入多种数据格式的能力。同时,由于IBM研发了将高分辨率扫描与颜色标准技术相结合的扫描技术,因此,其捕获、再现的图像的质量和颜色近乎完美。他们还开发了专业图像处理软件,使图像更加清新以便用户在Internet上阅览。此外,IBMDB2数字图书馆还可以将变质或遭到破坏的原始资料进行恢复,用户能同时看到被损文件的原样和修复以后的样子。
(2)信息的存储与管理技术
IBM-DB2数字图书馆提供开放环境下的高性能、可伸缩、能运行于多种平台上的信息存储与管理系统,可以存储包括文本、图形、图像、音频、动态视频信息等在内的多媒体数字化对象数据。对每一种类型的对象,可以定义它们的索引、查询支持(目录)信息以及相关的处理和程序,可以实现自动做索引、做文件夹、标明相互关系、抽取特征和翻译等功能。在此基础上,IBM开发了一种独特的对象存储管理体系结构,由客户端、图书馆服务器和对象服务器三者组成,如图2-1所示。在图2-1中,核心存储是图书馆服务器,用于管理目录信息,提供链接馆藏对象的指针;对象服务器里存储实际数字化信息资源,如一段视频剪辑;用户检索时,通过客户端将请求提交给图书馆服务器,图书馆服务器将请求进行转发,转发给一个对象服务器,并响应该用户的请求,然后对象服务器响应图书馆服务器请求,把被请求访问的数字对象提交给用户。这样,通过图书馆服务器将客户端和对象服务器隔离开,用户只有通过图书馆服务器才能存取数字对象,避免了非授权用户直接访问对象服务器,确保了系统的安全性。
图2-1 IBM数字图书馆对象存储管理体系图
在IBM-DB2数字图书馆解决方案中,通过提供一系列开放的应用界面来实现服务器访问以及对象服务器与客户端之间的传递,对象既可以直接传送给客户端并存储在工作站上,也可以在客户端之间传递。同时,IBM-DB2数字图书馆还提供等级存储管理。数字对象可以存储在人们想要存储的地方。最有可能被访问的对象通常存储在磁盘上,而较少被访问的对象则移至磁带或光存储器上。这样,在存储的维护方面可以节省成本。
(3)信息的检索与访问技术
IBM-DB2数字图书馆的解决方案支持对数字图书馆中信息的属性检索,提供文本挖掘工具进行全文检索。由于IBM-DB2数字图书馆提供一种独立于内容的数据存储方式,允许将各种对象存储在可伸缩的文档里,具体以适合于每种对象类型的方式分门别类,因此,用户检索时可以利用参数检索,如作者、主题、题名、长度等,来寻找元数据条目。同时,IBM-DB2数字图书馆具有成熟的分析文本和图像检索工具。IBM-DB2数字图书馆既提供自然语言提问——允许用户用简单、自然的风格表达提问,而不考虑具体的单词的位置,这种提问返回一个等级列表,最可能相关的列在前面;同时,该技术还实现了对词语进行文本分析,例如,对“白宫”与“白色的房子”进行区别,对“IBM”与“国际商用机器公司”建立联系,这种文本挖掘功能被扩展到基于文本的检索功能中。此外,IBM-DB2已经触及视频内容检索,允许用户用颜色比例、分布、位置和图像纹理(用图示表示)等来进行图像检索,例如从调色板上选取颜色或是从一系列样本图像中选取纹理。
(4)信息传递技术
IBM-DB2数字图书馆是开放的,能够支持各类平台的通信技术,比如TCP/IP,SNA,其内容可以通过互联网、企业内部网或交互性的电视机直接传递给用户。此外,IBM还开发了扩展的高级网络能力,如异步传输模式(IBM ATM)开关和网络管理软件,来辅助数字和模拟信息传送。
(5)权限管理技术
IBM-DB2数字图书馆通过利用标记、加密、检测、记账等关键技术加强权限管理,控制查询,防止未经授权使用知识产权,从而实现对用户知识的保护,并支持对象服务器安全访问的扩充和特殊访问控制。
IBM-DB2数字图书馆的权限管理类似于从一个自动取款机里取款。首先用户接受身份鉴定,输入密码,请求得到某信息或对象,于是系统检查用户提问是否合法,如果合法,被请求对象就可以加上水印传递给用户。总之,权限管理的过程是:签名——密封——传递,整个过程在一个安全的环境下进行,而且,信息或对象的增值可以得到及时补偿。
IBM-DB2数字图书馆的权限管理能力依赖于Cryptolope技术,同时,Cryptolope技术是IBM-DB2数字图书馆权限管理策略的基石,它能谨慎地识别出每一个作者,跟踪谁出售了什么。其中,对内容权利人和用户而言,Cryptolope Live 2标志着信息传送迈进了一大步。Cryptolope是一种可以在公共网络上运行的密码保护的“信封”。任何人想打开一个Cryptolope读取其中内容,都必须使用一个密钥。用户可以预览一个Cryptolope的内容之后再决定是否为密钥付费。对于需要增加安全性的敏感信息,一个Cryptolope可能需要几个密钥。当一个Cryptolope在网络上运行时,只有那个目标接收者知道它的存在。
(1)多媒体检索系统
传统理论一直认为,检索系统可依靠其丰富的内部结构对天然的、未经解释的比特流进行提问与检索,但是视听数据对数据管理提出了新的挑战。针对这个问题,数字图书馆首倡计划的成员S.Mehrotra,M.Ortege和K.Chakrabarti提出,管理视听数据需要以下技术:对可视对象有效地建立模型并描述,支持基于文本的检索和相似检索,对包括多重近似匹配的复合提问(如这些匹配的布尔组合)的评价方法,多媒体对象与其他传统数据的结合。他们在数字存储技术、图像分析与计算机视觉以及数据库管理方面的进展使人们相信开发功能强大的、支持复杂的多媒体数据的检索系统是可能的。
(2)检索高维数据(www.xing528.com)
现在出现的数据库应用越来越需要数据库为高维数据(其维数可能达到100)的存储与检索提供支持,而现存的多维检验结构(如网格文件、R树)还没有达到这样高的维数。它们要么用维数列出指数的复杂性,要么当维数增加时降为一个线性检索。美国军队研究实验室成员S.Mehrotra,K.Chakrabarti和K.Porkeaw研究克服这种维数灾难的机制,其研究方法包括设计新的多维数据结构(能提供保证好的效果)、开发远程保存转换(从高维空间转为低维空间)。这样低维数据便可以用现存的多维数据结构进行检索[27]。
3.加利福尼亚大学的图像检索技术
(1)Blobworld表示方法
加利福尼亚大学伯克利分校电气工程和计算机科学系的研究人员提出了一种新的图像表示方式——Blobworld。该方法将原始的像素数据转换为一系列在色彩和纹理上连贯的图像小区域,具体分割完全自动。目前,该算法已经运行在一个含有10 000张自然图像的集合中。采用Blobworld表示方法的图像检索系统的重要特点,是允许用户看到所提交图像和提问结果的内部表示方式,用户可以通过选择对象的图像区域而非输入图像的全部属性进行图像检索,而同类其他系统往往不让用户看到系统的工作原理,因此,这些系统虽然允许用户通过调节器来校正相似度,但很多检索结果仍然令人费解。
(2)将文本与图像特征聚簇进行图像数据的自动组织
该方法是由加利福尼亚大学伯克利分校计算机科学部的Kobus Barnard和David Forsyth提出的,它同时利用了从图像中抽取的特征和与图像同时出现的文本信息。首先,采用简单的结合方式对于有经验的用户按适当的关键词访问数据库效果是最好的。其次,即使是作这样理想的假设,找到所需的图像仍然很困难。研究者们明确声称:解决这个问题最好是使用所有知道的信息。第三,标引的细节应当对用户隐蔽。用户应当能找到看上去与他的兴趣相符的图像,而不是要求用户对相似性进行量化,除非是用选择方式。因此,他们想到对图像进行聚簇,将用户引到感兴趣的图像面前,具体采用的聚簇方法是期望值最大化(EM)算法,用最小描述长度标准选聚簇的数目。
聚簇的第一个问题是选择特征及其表示方法。对于文本,他们使用现有的或没有的单词,忽略那些在整个数据库中少见的单词。因此单词的特征矩阵仅仅是一个1和0的矩阵,其中行对应图像,列对应单词,而元素则对应图像的关键词集中有无那个单词。
处理图像特征的方法则更复杂一些。他们选择的是利用Blobworld数据中可获得的特征的方法。这里的信息比大多数选项的水平要高一些,但是使用这种信息确实增加了一些复杂性。在Blobworld方法中,图像被分割成许多小块,具体数目随图像不同而不同。虽然他们对每个小块所处的背景感兴趣,但是他们不知道哪一小块最有价值。于是他们也对每一个小块的重要性聚簇,作为第二层次上的EM聚簇。在EM方法中,每一张图像对于其所在的每一簇来说是作为丢失数据处理的。为了充分利用Blobworld数据,他们将每一个小块划到某一簇的适当性也作为丢失的数据,这个丢失的数据与簇的成员结合处理。
为了验证这个想法,两位研究者从Corel图像数据库中选取了大约2 400张图像进行实验。其目标是努力做到用等级方式组织整个收藏集(大约34 000张图像)。
(3)验证主体计划
David Forsyth和Margare Fleck进行了一个有趣的实验来验证他们的主体计划(bodyplan)。他们把来自各种渠道的100张马的图像和1 086张控制图像混合在一起,用检索工具寻找像兽皮的图像区域,也就是寻找直的和近似圆筒形的兽皮区域,然后使用一个主体计划来推理这些区域的空间分布,找出马的图像。主体计划就是在拼成一匹马的成熟模型的基础上识别马,结果该程序可以从很多方面识别马。
两位研究者通过一个参数来调整程序的执行情况,这个参数是用来评估一组看上去像马的图像到底是图像噪音还是真的马。如果参数值很高,那么反馈就很低,但是反馈率(获得的测试图像的百分数除以获得的控制图像的百分数)很高,这意味着获得的图像很可能是马。如果参数值很高,那么反馈就更高,但是反馈率较低,用户得到更多的马和控制图像。执行的水平可能有多种。然而他们做实验的一组图像的反馈是15,比较低,然而反馈率大约是233,意味着对于100张测试图像和1 000张控制图像,期望的精确度大约是663。因为寻找片段的过程有时会被栅栏或类似的东西迷惑,有些图像就丢失了。这纯粹是一个执行问题。本来在结果中可以再看到大约5张马的图像和大约4张控制图像,但是这些图像在执行中被分块检索器漏掉了。
(4)伯克利数字照片集
伯克利数字照片集(CalPhotos)是一个含有16 1961张植物,动物以及其他自然、历史主题的数字照片集。这些照片均附带有学科名、通用名、地点和日期等常用描述性信息,同时带有其他由拥有照片的个人或组织提供的描述性信息,CalPhotos每个月大概新增2 000张新照片,具体由已经注册CalPhotos的组织或个人提供。每天,CalPhotos接受约10万次查询,提供约100万张照片服务。其照片为世界各地的个人或组织所使用,包括上课学习动物或植物常识的儿童、使用照片进行课堂演示的研究生或大学教授、环境教育工作者、停车场、博物馆、动物园、疗养机构、出版商以及仅仅为欣赏照片的个人。在技术方面,CalPhotos由在线图片上传系统、采集系统、存储系统、检索系统、注解系统等组成,其数据模型不仅包括图片,而且包括图片注解信息。
在CalPhotos中,通过在线图片上传系统,已注册摄影记者可以将照片直接上传到CalPhotos数据库,每个月都有400名摄影家进行注册并使用该系统提供数百种新照片,同时它可以将存储在各种数据库中的图片导入到自己的系统中,存储在Informix数据系统中。此外,还可以将各种格式的图片转换为JPEG格式,统一进行存储。
供专家用来审核照片、评价照片、改变照片分类的注解系统可以为照片添加分类和地理信息,对注册摄影记者提供的照片的描述信息进行鉴别并更正,最终形成一个对科学家,学生,以及其他喜欢自然、历史的人士有益的、规范的特色数据库。
CalPhotos的照片检索系统由加利福尼亚大学伯克利分校的数字化图书馆项目开发,目前系统使用的是perl模块的DBI,MySQL数据库和自建的内部脚本。整个系统并不直接将照片存储在数据库中,而是在每条数据库记录中包含一个16位数字照片ID来指向存储磁盘上的具体照片。CalPhotos的照片检索系统支持使用动态查询功能,可以将照片存入到其他动态生成的网页中。比如,联合国环境署世界保护监测中心(UNEP-World Conservation Monitoring Centre)就是采用这种方式使用CalPhotos。具体而言,访问计算机程序的HTML查询表单直接创建一个查询MySQL数据库的SQL(标准查询语言)查询来传送和处理查询,并创建一个新的网页来显示匹配的结果照片。同时,CalPhotos设计的检索系统极其容易与相关的项目进行互操作,它可以创建个性化的查询,并将其编码在URL中以便其他网页和程序进行调用,因此,各种各样的网站、数据库都与CalPhotos相链接,比如爬行动物研究室数据库(EMBL Reptile Database),amphibiaweb,calflora。此外,它提供了多种搜索照片的方法,如照片的常用名和学名浏览列表、照片缩略图浏览列表[28,29]为人们寻找特定照片或通过搜寻引擎查找特定类群提供帮助,同时使浏览容易和方便[43,45]。
4.卡内基·梅隆大学的Informedia-II数字视频图书馆[30]
Informedia-II数字视频图书馆开创了视频音频的自动标引、导航、可视化、搜索与检索的新方法,并将它们广泛运用在教育、信息和娱乐系统中。Informedia系统提供对现在和过去的电视与广播新闻及纪录片、广播的全文检索与搜索。系统采用人工智能与高级系统技术以全自动化的方式对每天的内容进行捕获和信息抽取,并把它们存储在在线档案中。
当前的数字图书馆里有过去两年里1 500个小时的每日新闻和公共电视、政府机构的记录片。原型数据库允许根据声道、封闭字幕和屏幕上的文本对个别视频段落进行快速检索,支持任意说出的或文字输入的主题词提问。它还能够对相似的脸和图像进行匹配。研究者们采用独特的语音识别、图像理解和自然语言处理技术相结合的办法,自动录制、分割及标引线性视频。这些工具也同样运用在智能视频检索、导航和选择性检索中。这个过程自动为每个故事片段生成各种摘要,如标题、幻灯影片的故事概要和视频速览。
Informedia-II[30]在潜在信息抽取的速度和准确度上都有所提高。潜在信息包括名称、地点、日期和时间索引,还有动态故事分割、说话者声音和面部的识别、视频事件的特征与相似度匹配。执行的目标是实现实时分析处理,做到同时编入现行的图书馆,支持分布式个人视频档案的互操作。Informedia-II计划还能为自动从视频材料中抽出的索引建立关系和集合。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。