首页 理论教育 中国数字图书馆关键技术研究进展

中国数字图书馆关键技术研究进展

时间:2023-02-18 理论教育 版权反馈
【摘要】:此外,由于Internet上英文信息的数量与质量均处于领先地位,如果不加以利用,则数字图书馆的内容质量会大打折扣,因此,多语言技术也是中文信息管理技术的重要组成部分。

中国数字图书馆关键技术研究进展

2.2.5 中国数字图书馆关键技术研究进展[44]

1.信息的捕获与创建技术

1999年11月24日,北京汉王科技公司召开了“专业OCR技术成果发布会”,会上演示了该公司的专业OCR(光学字符识别)技术及相关产品,推出“新世纪OCR”。该版本提供快速准确的纯中英文识别功能,识别率达到99.9%,中英文混排识别率可达到98%以上,对较工整的手写文稿识别率在95%左右,识别速度达150字/秒(PII266)。在版面分析方面,新世纪OCR具有自动版面分析功能,能够自动区分文字、表格和图像等。2001年,汉王OCR技术达到了国际领先水平,实现了纸质文档快速转换成可编辑修改的电子文档,并在2005年推出了基于OCR技术的新一代汉王文本王。2006年11月,由于在识别方法、技术创新上的重大突破广泛应用,汉王OCR技术及应用入选信息产业重大技术发明项目,该项目率先推出多字体大字符集简繁混识的识别核心,能够识别常见的十几种字体及其变体,各种字体的识别率都在99%以上。目前,汉王OCR采用多特征组合优化方法和多识别内核集成方法,在多字体大字符集汉字识别的识别率和识别速度方面取得了突破性进展,构建了识别速度快、识别率高、易用性强的多个实用化OCR系统。比如,嵌入式光学字符识别系统,运用这一系统,通过手机数码相机等信息终端,能够轻易实现对名片的识别管理功能,有汉王嵌入式OCR识别系统的拍照手机,都能独立完成名片的扫描识别功能。嵌入式OCR识别系统是利用手机、DV、DC等数字移动产品的摄像设备把识别对象的图像记录下来,再通过内嵌的OCR识别核心和智能理解技术对图像信息加以识别处理,变成可随意修改编辑的文本材料的过程,并可对这些材料进一步编辑、保存或通过有线、无线网络进行传输[45]。此外,汉王视频识别技术也研制成功,该技术可将文字从视频画面里提取出来,并将其转化成可编辑的电子文档,可以应用于数据视频的编目及系统管理工作[46]

此外,厦门思根科技在全国乃至全球率先研发成功“嵌入式手机中/英/欧文名片识别及文本识别技术”,并在TCL的E787型手机上得到成功应用,引起了全球手机厂家的高度关注。该项技术成果充分利用了拍照手机的“眼睛”即摄像头进行名片、文字、条码等信息的摄入和识别,拓展了手机摄像头原有的照相功能。用户通过手机摄像头直接拍摄名片后,手机软件将自动识别名片上的中、英、欧文信息,并转成电子文件归类存档。与传统的手写输入相比,其输入名片信息的时间从原来的十几分钟缩短到数秒钟,显著地提高了用户的工作效率。另外,拍摄识别后的文本还可作为短信、电子邮件内容由手机即刻发出[47]

2.信息的存储与管理技术

在完成了信息的捕获与创建工作之后,自然就要对它们进行存储与管理。存储与管理的质量直接影响到信息的检索效率。中文信息的存储与管理与英文信息相比有其自身的特点,因此我们尤其要注重中文文本的分析技术、分类与聚类技术、数据挖掘技术。此外,由于Internet上英文信息的数量与质量均处于领先地位,如果不加以利用,则数字图书馆的内容质量会大打折扣,因此,多语言技术也是中文信息管理技术的重要组成部分。

(1)文本分析技术

●汉语文本特征的抽取方法

山西大学计算机科学系的研究人员从自动文摘的需求出发,探讨特征词自动抽取的方法和技术,设计并实现了两种不同的特征词自动抽取算法:一种是基于统计的特征词抽取方法,另一种是基于分类的特征词抽取方法。这些方法对文本的自动分类和全文检索也有一定的借鉴意义。

●字串去重的快速算法研究

利用计算机处理文本信息时,字串去重是一个比较重要的问题。例如,在电子词表的建设过程中,往往也涉及词条的去重问题。考虑到词条数目多以万计,去重效率就显得比较突出。上海交通大学网络信息中心的研究人员提出了4种有效的快速算法,其平均时间复杂度为O(nlogn),空间复杂度为O(n)。其中利用首字hash方法的去重算法,即先统计同一首字的字串数,再统计同一首字的字串,记录相应的下标,接着对同一首字的字串子集进行快速排序,最后对字串子集顺序扫描,设置标志位进行去重,比直接利用快速排序算法具有更好的性能,其思想可用于改进快速排序算法[48]

(2)分类与聚类技术

●中文文献自动分类中的知识库构造及其仿真算法

上海交通大学网络信息中心的研究人员用分类域模型来描述中文信息自动分类中的分类法,通过计算类别特征项在分类域中的Hamming距离,对类别特征项依据其在分类域中的类别分布进行聚类,从而实现对向量分类法中的特征向量维数的压缩,并进一步构造用于中文自动分类的知识库。

●基于字频向量的中文文本自动分类系统

山西大学的研究人员提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现基于全局最小错误率的汉字-类别两个向量空间的映射函数,并用该函数对测试文本进行分类。

(3)数据挖掘技术

●Web网页识别算法研究[49]

WWW上的文本信息挖掘工作是网络信息处理领域的新课题。中国科学技术大学电子工程与信息科学系的研究人员研究了两种机器学习算法——Rocchio算法和Widrow-Hoff算法,在Web网页识别领域中的应用,并对几种网页识别算法进行比较。他们发现两种机器学习算法的记忆能力均好于预测能力,且二者差别较大,这与算法本身的局限性和实验的样本数目较少有关。在处理单词过程中,Rocchi算法是按照正例和反例以组的形式来处理每个单词的,而Widrow-Hoff算法则是以文档为单位来处理的。当特征提取效果较好时,可以看出Widrow-Hoff算法的优越性表现得比较突出。

●面向粗糙集的数据挖掘方法

数据挖掘技术是信息系统的一个重要研究内容,它可以从大量数据中自动发现对决策有帮助的知识。许多数据挖掘技术需要将数据集划分为精确的正例集和反例集,因此仅仅适用于精确集(或经过删除噪声数据后的精确集),而不适用于粗糙集。而现实中,具有相同特征的数据有些属于正例概念,有些属于反例概念,我们称这样的数据集为粗糙集。粗糙集不能根据概念在条件属性上的特征描述将数据集截然划分为互不相交的正例集和反例集,只能划分为近似集。粗糙集是普遍存在的现象,因此开发出一种面向粗糙集的数据挖掘技术,在信息系统的研究领域具有重要意义。哈尔滨工业大学管理学院结合粗糙集理论,提出了一个信息系统的粗糙集模型,并在此基础上设计了一个属性约简方法及从粗糙集中发现规则的算法: Apriori-2。

(4)多语言技术

●基于范例推理机器翻译系统

该系统是基于范例推理方法在机器翻译领域中的应用,由上海交通大学计算机系推出。其基本思想是:系统先存储大量来自真实双语文本的翻译范例。对待译句进行翻译时,系统通过分析从范例库中找出和待译句相似的、有利用价值的翻译范例,通过类比,对翻译范例进行转换,生成待译句的译文。

他们提出的新的相似度量准则,使系统在保证翻译覆盖率的前提下提高了翻译的准确度,而含有抽象范例的范例库和递归抽象检索算法则提高了系统的时间效率。

●受限汉语与汉英机器翻译系统

顾名思义,受限汉语是在语法和词汇方面受到某些限制的汉语子集。受限汉语的研究任务就是要定义这样一个汉语子集,该子集既具有一定表达力、便于阅读,又能降低计算机处理的难度。北京信息工程学院的研究人员认为,如果坚持对汉语的真实文本进行机器翻译路线,则不可能使汉英机器翻译质量取得实质性的突破。因此,从计算机技术在自然语言信息处理领域的实际能力出发,开发面向受限汉语的汉英机器翻译系统,是机器翻译技术未来发展的基本方向。

●BT863-Ⅱ汉英机器翻译系统中的兼类处理方法

哈尔滨工业大学计算机科学与工程系将精简循环网络引入汉语词的兼类处理,并针对精简循环网络只能记忆和使用上文信息的问题提出了正反向精简循环网络的思想,使上下文信息在网络中同时得到有效利用。通过神经网络方法与规则方法的合理结合,在分词正确的情况下,BT863-Ⅱ中汉语词兼类处理的准确率达到了98.1%。(www.xing528.com)

3.信息的检索与访问技术

(1)检索引擎技术

这里值得一提的是一种基于DOM的结构化检索引擎。按照W3C的定义,DOM(Document Object Model)是一个允许程序或者脚本能够动态地存取和更新HTML/XML文件内容、结构以及风格的接口和平台。华东师范大学计算机系多媒体实验室的研究人员在分析了一般Internet网络检索引擎的结构和特点之后,利用DOM存取和处理HTML文件的原理和方法,提出了基于DOM的结构化检索引擎,其基本思想是利用W3C提出的DOM规范和编程接口对HTML文件重新解释,提取出HTML文件的树形逻辑结构;在索引时将HTML文件的结构信息和结点(Node)内容一起保存,按结点的结构和属性等建立索引;查询时,以结点为单位进行检索,根据结点的结构、属性进行匹配度加权计算。通过这一方法,该检索引擎实现了更加准确的、面向对象的检索。

(2)图像及视频检索技术

●分形编码在图像检索中的应用

分形编码在图像压缩方面取得了很好的效果,同时,分形编码也能够用于基于内容的图像检索。华南理工大学电子与通信工程系和香港理工大学电子与资讯工程系经共同研究,提出了一种基于块限制的分形编码算法和匹配策略,并将它们用于图像检索。在编码算法中,图像被预先分成互相不重叠的子图像块,然后对这些子图像进行独立的分形编码,从而获得整幅图像的分形码。该编码算法能够在很大程度上减少编码时间。在进行图像间相似性的匹配时,他们采用改进的基于九叉树的分配策略,从而避免了全局地进行分形码的匹配,减少了计算量。实验结果表明,这种编码算法和匹配策略能够较好地应用于基于内容的图像检索,在计算时间和存储时间上都优于实验中其他两种方法。

●十种基于颜色特征的图像检索算法的比较和分析

在基于内容的图像检索中,颜色特征已得到广泛应用。清华大学电子工程系的研究人员,对十种利用颜色特征进行图像检索的算法,利用同一图像库进行了实验比较。实验采用的算法包括:分别在HSV和MTM空间,采用直方图法和中心矩法。直方图法又分一般直方图法和累加直方图法。而一般直方图法的相似度量又分别采用相交法、欧氏距离法和加权距离法。实验结果表明,无论在HSV空间或MTM空间,累加直方图法均优于一般直方图法。对这一点还首次给出了严格的理论证明。实验结果还表明,加权距离法比欧氏距离法总体上没有明显改善,MTM空间比HSV空间也没有显出优势。而中心矩法算法简单,检索速度快,通过调整加权系数,检索精度可以接近累加直方图法。实验和分析对选择和优化检索算法有一定的参考价值。

●基于MPEG-7的图像检索模型研究

上海交通大学图像通信与信息处理研究所的研究人员,研究了基于内容的图像检索系统中的目标描述模型的建立方法。他们首先指出目标描述模型是图像检索的关键技术,在分析了MPEG-7草案中有关多媒体描述的基本术语、描述机制和MPEG-7的应用框架之后,针对MPEG-7提出了一种适合于图像检索的目标描述模型。该模型对提取出的多种视觉特征和相应的表示方法采用了分层结构。模型满足用户对所需特征进行不同级别检索的要求。

(3)可视化信息检索技术

●用Delphi开发通用数据库可视化查询器用户建立数据库的目的之一,就是为了能够方便有效地查询数据库中的数据,因此构造方便、高效的查询系统便成为设计数据库应用系统的主要目标之一。当今世界上绝大多数关系数据库采用的查询语言是工业标准的SQL语言。浙江大学计算机科学与工程学系的研究人员在数据库应用程序开发中,用Delphi开发了一个通用的数据库可视化查询器。用户可以根据自己的查询需要,在这个可视化查询器提供的操作面板上方便地、全方位地组织自己的查询语句,即用户可以决定显示哪些字段、记录,以哪种方式显示等。

●基于概念的中文文本可视化表示机制

为了浏览互联网上日益增多的在线中文文本,大连理工大学计算机系与东北大学计算机系经共同研究,给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集。其基本思想是:首先在概念扩充的基础上,进行文本分类。然后,利用本文所述的文本特征抽取方法和摘要方法,获取文本类别、文本、正文的标记信息,通过类别、文本、正文的超文本链接,帮助用户有目的、有选择地浏览文本。

4.信息的传递技术

(1)非线性编辑系统中的数字视频压缩技术

非线性编辑系统对数字视频压缩技术有特殊的要求。北京大学计算机研究所的研究人员在实验的基础上比较了MotionJPEG和MPEG2P@ML的算法性能,分析了视频压缩格式不兼容性给非线性编辑系统的设计和实现带来的问题,认为要解决视频压缩格式的不兼容性,最好的办法是使系统具有较强的硬件独立性。因此,他们设计并实现了一个基于MotionJPEG的非线性编辑系统,采用Matrox公司的DigiLE卡提供实时双通道视音频IO和实时切换特技,在系统设计中加入一层硬件抽象层,以减少系统对特定视频卡的依赖。

(2)基于小波变换的多光谱图像压缩方法

中国科学技术大学电子工程与信息科学系在分析多光谱图像小波变换后系数特点的基础上,提出了一种共享有效图的小波变换压缩方法(SSMWT)。该方法将小波变换压缩技术中的零树编码推广到多光谱图像压缩中,利用多光谱图像的结构相关性,对多幅小波图像只需构造一幅有效图,同时去除空间冗余和谱间结构冗余,并与KL变换相结合,进一步去除谱间统计冗余。实验表明该方法是有效的。

5.权限管理技术

(1)基于小波变换的静态图像数字水印算法

国防科技大学电子工程学院的研究人员提出了一种基于小波变换并且不需要利用原始图像信息的静态图像数字水印算法,并给出检测门限的确定方法。实验结果表明,该算法较好地保持了图像质量,并且对各种常用的图像处理方法显示出较强的稳健性。

(2)逆镶嵌水印攻击和单向数字水印

数字水印是镶嵌在数据中,具有抗检测、抗伪造、抗擦除特性,并不影响数据合法使用的具有可鉴别性的数据。它可以起到证明作品的版权归属和所保留版权的作用。在水印的实际使用中,需要考虑裁决上的问题。对于存在着容易实现的逆镶嵌水印过程的水印方案,也同时存在着逆镶嵌水印伪造攻击方法。中国科学院研究生院信息安全国家重点实验室的研究人员发现,使水印的镶嵌过程具有单向性可以解决这一问题,于是他们提出了一个利用序列密码的单向数字水印方案。该方案可以避免出现无法判决的版权争议,并可以解决码字保密等一些安全问题。实验结果表明这是一个可行的水印方案。

(3)一种多用户数据库应用系统安全机制的实现方法

西安交通大学电信学院软件研究所的研究人员,针对一个具体的多用户数据库应用系统安全性要求的特点,提出在数字图书馆应用程序上实现安全机制的一种方法。其基本思想是:多个终端用户共用同一个用户账号,也就是共用基表,在每个基表上附加一个名为PW的属性(property);在主控模块中,终端用户必须先输入口令,该口令作为一个参数(parameter)传入各子程序,在添加记录时,自动将该口令赋给PW属性值,若口令为空或不正确,则不允许插入记录,并给出提示;在进行查询时,不受口令限制,任一终端用户均可查询所有记录;在修改和删除记录前,程序先核对用户输入的口令与记录中的PW值是否相等,如果相等,则允许修改、删除,否则便不允许。

综上所述,国外数字图书馆建设以高新技术作为支撑,形成了从信息的捕获与创建、存储与管理、检索与访问、传递到权限管理的完整的技术体系,如在信息的创建与捕获环节中需要扫描技术、原有信息导入技术、OCR技术等;在信息的存储与管理环节需要等级存储技术、自动索引技术、信息抽取技术、数据挖掘技术等;在信息的检索与访问环节需要自动分类技术、自然语言处理技术、多媒体检索技术等;在信息的传递环节需要压缩技术、网络技术等;在信息的权限管理环节需要水印技术、电子签名技术等。在国内,已经具有较为完整的从信息的捕获与创建、存储与管理、检索与访问、传递直到权限管理的技术体系,需要对其在数字图书馆领域的应用进行深入研究,同时需要注意的是,在国内现有数字图书馆关键技术中,数字资源加工编辑方面比较成熟,如文本分析技术、分类与聚类技术、数据挖掘技术等。但对于多媒体信息的研究,包括多媒体信息的捕获与创建、存储与管理、检索与访问乃至传递则需进一步开展研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈