2.2.3 法国数字图书馆关键技术研究进展
1.法国国家图书馆的Gallica和Gallica 2[35,36,37]
法国国家图书馆(BNF)已经数字化了100 000幅图像,这些图像是从法国国家图书馆之外的文件集和BNF各部门的世代收藏中选取的。已数字化的收藏通过BNF的内部网络传递,一旦网上通信牵扯到的技术和法律问题解决之后,所有数字化的文件将会上传到各种“信息高速公路”。BNF的第一版网站是在1996年上载到Internet上的,它描述了BNF的馆藏、实用信息、新闻、重大事件的进展和专业信息。最重要的是该网站提供免费接入BN-OPALE和BNOPALINE数据库,这两个数据库包括2 500 000多篇参考文献,可以用Telnet方式检索。新的集成信息系统完成之后,读者将可以检索图书馆的全部目录,包括从Gutenberg到现在的印刷资料,还有声音记录和音频资料,一共大约有800万条。
法国国家图书馆包括Gallica和Gallica 2两个版本,其中,Gallica包括从中世纪到20世纪早期的多媒体文件,是世界范围内电子网络上最大的免费数字收藏集之一。Gallica 2是BNF数字图书馆的最新版本。2008年,BNF数字图书馆将会正式采用Gallica 2取代Gallica作为新的信息检索接口。目前,Gallica 2检索接口的测试版已经在试运行[29],但是其资源量主要还是存储在Gallica中,后续将逐渐转入Gallica 2。
2007年10月开始试用时,Gallica 2包括约有30 000本专刊,绝大多数是图片模式,部分是文本模式,所谓“图片”模式是将带有图像、照片的文件扫描成图片,比如传真,其内容与原件结构完全相同。“文本”模式则用有限的方式来考虑文件的布局信息,其重点考虑图书的文本信息,其中,可以搜索文件的内容、版权信息,甚至可以将信息传递到移动终端。由于文本模式中的信息采用OCR技术扫描获取,而该技术对原始图像的质量比较敏感,比如图像中的斑点、字体大小等,容易出现识别错误,因此Gallica 2同时提供两种图片和文本模式[38]。同时,根据技术实现的整体规划,Gallica 2可以逐步兼容Gallica现有的各种文件格式(到2007年10月21.50万件印刷文件和10万张文件影像),三年以后,随着近30万新印刷材料的数字化和法文报纸扫描工作的不断完成,它的信息量将会得到丰富。此外,Gallica 2允许远程访问其他法语数字图书馆,比如使用OAI(Open Archive Initiative)。由于技术原因,在Gallica 2试用时只能访问模拟案例,后续版本将包括图像文件、期刊和大格式文件,比如地图以及声音文件。在语言方面,Gallica 2主要支持法语,但同时也部分支持英文、意大利语、德语、拉丁语和希腊语等。
在技术上,Gallica 2采用J2EE(Java 2 Enterprise Edition)技术框架进行开发,以整合各种开源和免费软件。具体而言,在搜索引擎方面,Gallica 2使用开源软件组织Apache提供的Lucene作为检索软件,该检索软件具有很多新的特征,比如全文检索等。同时,Gallica 2的后续版本将逐步实现各种高级检索,比如布尔操作、语义工具等。在扫描技术方面,法国国家图书馆的文档由与BNF有合作关系的公司专门进行,其中,在BNF所要求的文字扫描技术中,其提供的扫描格式包括:文本图像模式采用黑白TIFF格式进行压缩,以便于打印,插图采用灰色或彩色的TIFF或者JPEG格式,文本内容中的表格和OCR采用XML格式,然后由Gallica 2提供这些格式的查询服务,图片查询模式采用PNG格式,文本查询模式采用HTML格式,同时可以提供PDF格式的文本和图像下载或打印。在Gallica 2中,文件采用Dublin Core元数据格式进行描述,由BNF数字化的图书可以提供相应描述性数据,具体存储在BNF的“数据集合”中,并可以通过OAI-PHM(Open Archive Initiative-Protocol for Metadata Harvesting)以XML格式下载[39]。
2.声频视频资料的检索技术
法国的Entreprise industrielle,OTH和SETEN三家公司已经联手开发出了一种新的高效系统,可检索BNF的声频视频和多媒体资料。检索涉及的所有功能都由这个系统管理与组织,如音频与视频控制板、数字与模拟文件的存储、传输和传递、工作站显示与交互功能、用户与音频/视频板的通信、与主要信息系统的链接和部分资料的数字化,还有访问统计与它自身的操作功能。
3.BNF的信息系统
BNF计算机化计划从数据上看在世界图书馆界是最大的。该计划的完成将需要400个人年。一旦全部完工,这个带有14个数据库主机、47个存储服务器和3 000个工作站的新系统将提供异常快速的处理能力和6万亿字节的存储容量。规模之大需要相当的项目管理能力(60个人)和国际性的工业伙伴。BNF曾在欧洲范围内发了一封邀请加盟信,CapGemini、IBM和Alcatel公司(100名员工)应邀而至。BNF与Bull签订了设备供应与集成的合同。Bull是包括Sequent、Experdata、Oracle、Microsoft和Foresystem在内的合作单位的领头人,这次合作成立了一个80人的小组。
4.IRCAM多媒体图书馆:数字音乐图书馆[40,41]
IRCAM是法国指挥家、作曲家Pirre Boulez于20世纪70年代末建立的一个研究当时音乐的非营利协会。现在在Laurent Bayle的带领下,该协会正在建立一个数字音乐图书馆。
(1)总体结构
该馆的总体结构采用C/S。其中,Server存储目录和数字化的集合。在用户终端,HTML是系统的唯一界面。这种选择是为了让公众以现有的工具(如网络浏览器)远程访问在线图书馆。
(2)标准(www.xing528.com)
●总体界面:HTML(和Z39.50)
●目录记录:UNIMARC
●IRCAM录音:MPEG-lLayer2(384Kb/s)
●商业CD:44.1kHz的立体样本(1.4Mb/s)
●压缩视频:MPEG-1(1.8~2Mb/s)
●静态图像:JPEG(和GIF)
●网络协议(high):TCP/IP
●网络协议(low):转换以太网,快速以太网
(3)硬件与网络
两种不同的服务器:一个负责传送非多媒体文件(目录、网页、静态图片),连接到10Mb/s以太网;一个负责多媒体文件——经数字化且压缩存储在标准RAID盘、紧凑盘和经特殊选择的自动唱机的CD-ROM上的录音与视频。值得一提的是自动唱机,它们的CD机必须执行一个命令,允许主机通过SCSI总线将声频CD内容读到它的主存里。这个特征不是所有的CD播放器都具有的。用户终端连接到一个10Mb/s的转换以太网分支。
(4)软件
该馆用到的软件有:服务器软件、图书馆软件Loris(由Ever公司提供)、网络服务器Apache(由Apache集团提供)、多媒体服务器CDLine(由Archimed公司提供)、全文检索FreeWAIS-sf及Sfgate、客户机软件、网络浏览器IE(Archimed)、实用程序与语言、声频抽取disk-to-disk(由Microtest公司提供)、声频压缩LogicieldecodageMPEGI552(CCETT)和Perl语言。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。